論文の概要: Attention-Based Sampler for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.08564v1
- Date: Wed, 18 Mar 2026 07:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.423684
- Title: Attention-Based Sampler for Diffusion Language Models
- Title(参考訳): 拡散言語モデルのための注意に基づくサンプリング
- Authors: Yuyan Zhou, Kai Syun Hou, Weiyu Chen, James Kwok,
- Abstract要約: 本研究では,Attn-Samplerと呼ばれる新しい学習自由復号アルゴリズムを提案する。
注意列和の順にトークンを復号することで、最適なシーケンス確率をほぼ達成できることを示す。
- 参考スコア(独自算出の注目度): 16.008464195041984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-regressive models (ARMs) have established a dominant paradigm in language modeling. However, their strictly sequential decoding paradigm imposes fundamental constraints on both inference efficiency and modeling flexibility. To address these limitations, diffusion-based large language models (dLLMs) have been proposed, offering the potential for parallel decoding and flexible language modeling. Despite these advantages, current dLLMs decoding strategies rely primarily on token level information, which fails to account for global sequence structure and often yields suboptimal results. In this paper, we study the decoding order selection problem from the perspective of log-likelihood maximization. We theoretically demonstrate that optimal sequence likelihood can be approximately achieved by decoding tokens in descending order of their attention matrix column sums. This finding provides a principled justification for attention-guided decoding and offers a theoretically grounded alternative to greedy search. We instantiate this theoretical insight in a new training-free decoding algorithm, termed Attn-Sampler, and further propose a block attention approximation and dynamic attention thresholding for practical acceleration. Extensive experiments across multiple benchmarks validate the effectiveness of our proposed method, demonstrating that it achieves superior generation quality while enhancing the decoding parallelism.
- Abstract(参考訳): 自動回帰モデル(ARM)は言語モデリングにおいて支配的なパラダイムを確立している。
しかし、その厳密な逐次復号パラダイムは推論効率とモデリングの柔軟性の両方に根本的な制約を課している。
これらの制限に対処するため、拡散に基づく大規模言語モデル (dLLM) が提案され、並列デコーディングと柔軟な言語モデリングの可能性を秘めている。
これらの利点にもかかわらず、現在のdLLMの復号戦略は主にトークンレベルの情報に依存しており、これはグローバルなシーケンス構造を考慮せず、しばしば準最適結果をもたらす。
本稿では,ログ類似度最大化の観点から,復号順序選択問題について検討する。
理論的には、アテンション行列列和の順にトークンを復号することで、最適なシーケンス確率をほぼ達成できることを実証する。
この発見は注意誘導復号の原理的な正当化を提供し、理論上は欲求探索に代わる代替手段を提供する。
我々はこの理論的な洞察を、Attn-Samplerと呼ばれる新しい学習自由復号アルゴリズムのインスタンス化し、さらにブロックアテンション近似とダイナミックアテンションしきい値を用いた実用的なアクセラレーションを提案する。
提案手法の有効性を複数のベンチマークで検証し,デコード並列性を高めつつ,優れた生成品質が得られることを示した。
関連論文リスト
- Confidence-Based Decoding is Provably Efficient for Diffusion Language Models [8.527157686215117]
拡散言語モデル (DLM) は、言語モデリングのための自己回帰モデル (AR) に代わる有望な代替品として登場した。
DLMにおける信頼度に基づく復号化のための理論解析フレームワークを開発した。
論文 参考訳(メタデータ) (2026-03-23T17:43:21Z) - Decoding Large Language Diffusion Models with Foreseeing Movement [36.326379474672564]
LLDM(Large Language Diffusion Models)は、自動回帰モデルよりも並列化推論と制御可能な世代を生成するフレキシブルなデコードメカニズムの恩恵を受ける。
しかし、既存の方法は主に、長期的な影響を見越しながら、局所的な影響に焦点を当てている。
本稿では,FDM(Foreseeing Decoding Method)を提案する。
論文 参考訳(メタデータ) (2025-12-03T14:39:41Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Self-Augmented Visual Contrastive Decoding [13.078702859025482]
LVLM(Large Vision-Language Models)は、目覚ましいマルチモーダル機能を示す。
LVLMは、基礎となる言語モデルから幻覚の傾向を継承する。
本研究では,これらの制約に対処する新しい学習自由復号法を提案する。
論文 参考訳(メタデータ) (2025-10-15T09:03:34Z) - Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。
FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文 参考訳(メタデータ) (2025-09-30T21:28:04Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。