論文の概要: Mosaic: Unlocking Long-Context Inference for Diffusion LLMs via Global Memory Planning and Dynamic Peak Taming
- arxiv url: http://arxiv.org/abs/2601.06562v1
- Date: Sat, 10 Jan 2026 13:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.877186
- Title: Mosaic: Unlocking Long-Context Inference for Diffusion LLMs via Global Memory Planning and Dynamic Peak Taming
- Title(参考訳): Mosaic: グローバルメモリプランニングと動的ピークターミングによる拡散LDMの長期的推論
- Authors: Liang Zheng, Bowen Shi, Yitao Hu, Jiawei Zhang, Ruofan Li, Sheng Chen, Wenxin Li, Keqiu Li,
- Abstract要約: 拡散に基づく大規模言語モデル (dLLMs) は,グローバルプランニングと反復的改良を実現するために,同時認知を利用した,有望なパラダイムとして登場した。
既存の推論システムは、厳密なシステム非効率のため、このパラダイムに不適である。
ローカルな静的管理からグローバルな動的パラダイムに移行するメモリ効率のよい推論システムであるMosaicを提案する。
- 参考スコア(独自算出の注目度): 34.16016695663811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based large language models (dLLMs) have emerged as a promising paradigm, utilizing simultaneous denoising to enable global planning and iterative refinement. While these capabilities are particularly advantageous for long-context generation, deploying such models faces a prohibitive memory capacity barrier stemming from severe system inefficiencies. We identify that existing inference systems are ill-suited for this paradigm: unlike autoregressive models constrained by the cumulative KV-cache, dLLMs are bottlenecked by transient activations recomputed at every step. Furthermore, general-purpose memory reuse mechanisms lack the global visibility to adapt to dLLMs' dynamic memory peaks, which toggle between logits and FFNs. To address these mismatches, we propose Mosaic, a memory-efficient inference system that shifts from local, static management to a global, dynamic paradigm. Mosaic integrates a mask-only logits kernel to eliminate redundancy, a lazy chunking optimizer driven by an online heuristic search to adaptively mitigate dynamic peaks, and a global memory manager to resolve fragmentation via virtual addressing. Extensive evaluations demonstrate that Mosaic achieves an average 2.71$\times$ reduction in the memory peak-to-average ratio and increases the maximum inference sequence length supportable on identical hardware by 15.89-32.98$\times$. This scalability is achieved without compromising accuracy and speed, and in fact reducing latency by 4.12%-23.26%.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLMs) は,グローバルプランニングと反復的改良を実現するために,同時認知を利用した,有望なパラダイムとして登場した。
これらの機能は、特に長期のコンテキスト生成には有利だが、そのようなモデルのデプロイは、システムの過度な非効率に起因する、禁止的なメモリ容量障壁に直面している。
累積KV-cacheに制約された自己回帰モデルとは異なり、dLLMは各ステップで再計算された過渡的アクティベーションによってボトルネックとなる。
さらに、汎用メモリ再利用機構は、ログとFFNを切り替えるdLLMの動的メモリピークに適応するためのグローバルな可視性を欠いている。
これらのミスマッチに対処するため,ローカルな静的管理からグローバルな動的パラダイムに移行するメモリ効率のよい推論システムであるMosaicを提案する。
Mosaicはマスクのみのロジットカーネルを統合して冗長性を排除し、オンラインヒューリスティック検索によって動的ピークを適応的に緩和する遅延チャンキングオプティマイザと、仮想アドレス処理による断片化を解決するグローバルメモリマネージャを備える。
大規模な評価の結果、Mosaicはメモリピーク対平均比を平均2.71$\times$に下げ、同一ハードウェアでサポート可能な最大推論シーケンス長を15.89-32.98$\times$に引き上げた。
このスケーラビリティは精度とスピードを損なうことなく達成され、実際にレイテンシを4.12%から23.26%削減する。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - RevFFN: Memory-Efficient Full-Parameter Fine-Tuning of Mixture-of-Experts LLMs with Reversible Blocks [12.966077380225856]
RevFFNは、専門家(MoE)のLLMの混合のためのメモリ効率の良い微調整パラダイムである。
RevFFNは、バックプロパゲーション中に出力からの層入力アクティベーションの再構築を可能にする、慎重に設計されたリバーシブルトランスフォーマーブロックを採用している。
論文 参考訳(メタデータ) (2025-12-24T03:56:58Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文 参考訳(メタデータ) (2025-07-02T15:44:35Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching [27.114862565164145]
拡散に基づく大規模言語モデルは、反復的にマスキングされたセグメントによってテキストを生成する。
dLLMは高い推論遅延に悩まされる。
従来のARMアクセラレーション技術は、dLLMと互換性がない。
トレーニング不要な適応型キャッシュフレームワークであるdLLM-Cacheを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。