論文の概要: Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2508.00819v1
- Date: Fri, 01 Aug 2025 17:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.978767
- Title: Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
- Title(参考訳): Beyond Fixed: 拡散大言語モデルのための可変長Denoising
- Authors: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin,
- Abstract要約: 拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
- 参考スコア(独自算出の注目度): 74.15250326312179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (DLLMs) are emerging as a powerful alternative to the dominant Autoregressive Large Language Models, offering efficient parallel generation and capable global context modeling. However, the practical application of DLLMs is hindered by a critical architectural constraint: the need for a statically predefined generation length. This static length allocation leads to a problematic trade-off: insufficient lengths cripple performance on complex tasks, while excessive lengths incur significant computational overhead and sometimes result in performance degradation. While the inference framework is rigid, we observe that the model itself possesses internal signals that correlate with the optimal response length for a given task. To bridge this gap, we leverage these latent signals and introduce DAEDAL, a novel training-free denoising strategy that enables Dynamic Adaptive Length Expansion for Diffusion Large Language Models. DAEDAL operates in two phases: 1) Before the denoising process, DAEDAL starts from a short initial length and iteratively expands it to a coarse task-appropriate length, guided by a sequence completion metric. 2) During the denoising process, DAEDAL dynamically intervenes by pinpointing and expanding insufficient generation regions through mask token insertion, ensuring the final output is fully developed. Extensive experiments on DLLMs demonstrate that DAEDAL achieves performance comparable, and in some cases superior, to meticulously tuned fixed-length baselines, while simultaneously enhancing computational efficiency by achieving a higher effective token ratio. By resolving the static length constraint, DAEDAL unlocks new potential for DLLMs, bridging a critical gap with their Autoregressive counterparts and paving the way for more efficient and capable generation.
- Abstract(参考訳): 拡散大言語モデル(DLLM)は、効率的な並列生成とグローバルなコンテキストモデリングを提供する、支配的な自己回帰大言語モデルに代わる強力な代替品として出現している。
しかし、DLLMの実践的な応用は、静的に事前定義された生成長の必要性という、重要なアーキテクチャ上の制約によって妨げられている。
この静的な長さ割り当ては、複雑なタスクのパフォーマンスを損なうのに、過剰な長さは計算上のオーバーヘッドを発生させ、時には性能の低下をもたらすという問題を引き起こす。
推論フレームワークは厳密であるが、モデル自体が与えられたタスクに対して最適な応答長と相関する内部信号を持っていることを観察する。
このギャップを埋めるために、我々はこれらの潜伏信号を活用し、拡散大言語モデルに対する動的適応長拡張を可能にする新しい訓練不要な復調戦略であるDAEDALを導入する。
DAEDALは以下の2段階で動作する。
1)Denoisingプロセスの前に、DAEDALは短い初期長さから始まり、シークエンス・コンプリート・メトリックによってガイドされる粗いタスクに適した長さに反復的に拡張する。
2) デノナイジング過程において,DAEDALはマスクトークン挿入によって不適切な生成領域をピンポイントし,拡張することにより動的に介入し,最終的な出力を確実にする。
DLLMの大規模実験により、DAEDALは高い有効トークン比を達成し、同時に計算効率を向上しつつ、厳密に調整された固定長ベースラインに匹敵する性能を達成できることを示した。
静的長制約の解決により、DAEDALはDLLMの新たなポテンシャルを解放し、Autoregressiveと重要なギャップを埋め、より効率的で有能な生成を可能にする。
関連論文リスト
- Hybrid Autoregressive-Diffusion Model for Real-Time Streaming Sign Language Production [0.0]
本稿では,自己回帰モデルと拡散モデルを組み合わせて手話生成(SLP)モデルを生成するハイブリッドアプローチを提案する。
細かな体の動きを捉えるため,異なるアーティストから細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
また、連立レベルの信頼スコアを利用してポーズ生成過程を動的にガイドする信頼意識型因果注意機構も導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - Breaking the Context Bottleneck on Long Time Series Forecasting [6.36010639533526]
長期の時系列予測は、経済、エネルギー、輸送における計画と意思決定に不可欠である。
最近の進歩によりこれらのモデルの効率は向上したが、より長いシーケンスを効果的に活用することの難しさは持続している。
長いシーケンスの効率的かつ効率的な処理を実現するために,Logsparse Decomposable Multiscaling (LDM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:29:34Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。
我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文 参考訳(メタデータ) (2024-04-08T05:45:03Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。