論文の概要: Supportive Token Revealing for Fast Diffusion Language Model Decoding
- arxiv url: http://arxiv.org/abs/2606.04236v1
- Date: Tue, 02 Jun 2026 21:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.39444
- Title: Supportive Token Revealing for Fast Diffusion Language Model Decoding
- Title(参考訳): 高速拡散言語モデルデコードのための支援トークン検索
- Authors: Giries Abu Ayoub, Mario Barbara, Lluís Pastor-Pérez, Tanja Bien, Aneesh Barthakur, Alaa Maalouf, Loay Mualem,
- Abstract要約: AXONはトレーニングフリーのモジュールで、拡散言語モデルの既存の並列デコード戦略の上に追加することができる。
AXONは、既存の並列デコーダの品質・レイテンシのトレードオフを改善し、精度を維持したり改善したりしながら、機能評価の回数を減らすことができることを示す。
- 参考スコア(独自算出の注目度): 10.022716564968695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.
- Abstract(参考訳): 離散拡散言語モデルは、複数のマスキング位置を並列に更新することで、テキストを効率的に生成することができるが、この並列性は品質レイテンシのトレードオフをもたらす。
攻撃的復号化は互いに依存するトークンを早すぎる可能性があるが、保守的復号化には多くの復号化ステップが必要である。
既存の方法では、信頼や依存性の基準を使ってどのトークンが安全かを判断することで、この緊張に対処する。
しかし、不確実なトークンはマスクされたトークンに依存する可能性があるため、安全でないコミットを避けることで、残りのマスクされたシーケンスのデコードが容易になるとは限らない。
拡散言語モデルのための既存の並列デコード戦略の上に、トレーニング不要のモジュールであるAXONを提案する。
ベースデコーダを置き換える代わりに、AXONは残りの不確実なマスク付きトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入する。
次に、トークンが最も安全であることを明かす基準から、確実な露見が後ほどデノベーションをサポートするであろう基準をシフトする。
AXONは、注意、不確実性、および信頼信号を用いて、不確実な位置が関与するアンカー、確実なマスク付きトークンを選択する。
複数の拡散言語モデルに対する推論とコード生成ベンチマークの実験により、AXONは既存の並列デコーダの品質・レイテンシのトレードオフを改善し、精度を維持したり改善したりしながら、機能評価の回数を減らすことが示されている。
関連論文リスト
- SimSD: Simple Speculative Decoding in Diffusion Language Models [61.33773959352141]
拡散大言語モデル (dLLMs) は、並列またはブロックワイド復号による高速な推論を提供する。
彼らのマスク付き言語モデリングの定式化は、標準的なトークンレベルの投機的復号法とは相容れないままである。
我々は,dLLMに時間的に有効なトークンレベルのコンテキストを付与する,SimSDと呼ばれるdLLMの投機的復号アルゴリズムを提案する。
提案手法は,平均生成品質を維持しつつ,最大7.46倍高い復号スループットを実現する。
論文 参考訳(メタデータ) (2026-06-01T17:46:46Z) - When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models [36.19429911715776]
信頼度が完全に非自己回帰的(主に非AR)デコーディングを誤解させる場合について検討する。
本稿では,デコード進行に応じてアンカー近傍の信頼度を変調する訓練不要なSuffix-Anchored Confidence Modulationを提案する。
提案手法は信頼性に基づく完全非AR復号化を一貫して改善し,EOT抑制性能に優れ,完全非AR生成の並列復号化の利点を保っている。
論文 参考訳(メタデータ) (2026-05-27T09:02:58Z) - The Path Matters: Learning a Token-Commitment Policy for Diffusion Language Models [52.93186090124315]
トークンのコミットメントは、再利用可能なトレースステートポリシとして学ぶことができる、と私たちは主張する。
凍結拡散言語モデルのためにこのポリシーをインスタンス化する軽量プラグインコントローラであるTraceLockを紹介する。
論文 参考訳(メタデータ) (2026-05-23T18:23:46Z) - Stability-Weighted Decoding for Diffusion Language Models [8.670026899042483]
既存のデコード戦略は、1つのデノナイジングステップで計算された静的な信頼度に依存し、時間的履歴を無視し、不安定なトークンを早めに解き放つ。
本研究では,時間的安定性をトークンスコアリングに組み込んだ学習自由なプラグアンドプレイ戦略であるStable-Weighted Decoding(SWD)を提案し,任意のスコアベースのデコーディングポリシーのためのユニバーサルモジュレータとして機能する。
論文 参考訳(メタデータ) (2026-04-18T17:04:10Z) - Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs [8.800270601225668]
拡散LDMの並列復号化は,各復号化ステップがトークン単位の周縁分布のみを提供するため困難である。
本稿では、自己アテンションを用いて条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
論文 参考訳(メタデータ) (2026-03-13T13:52:02Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。