論文の概要: Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05090v1
- Date: Mon, 06 Oct 2025 17:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.043468
- Title: Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models
- Title(参考訳): 拡散大言語モデルのためのテスト時間Token-Levelクロスバリデーション
- Authors: Runchu Tian, Junxia Cui, Xueqiang Xu, Feng Yao, Jingbo Shang,
- Abstract要約: 拡散大言語モデル(dLLM)は、並列デコーディングの高速化や双方向コンテキストモデリングといった利点を提供する。
離散dLLMにおけるバニラデコーディング戦略は、重要な制限に悩まされる。トークンが受け入れられると、後続のステップで修正することはできない。
予測トークン間のクロスバリデーションを利用するトレーニングフリーなデコーディング戦略であるToleratorを提案する。
- 参考スコア(独自算出の注目度): 47.5976588836299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) have recently emerged as a promising alternative to autoregressive (AR) models, offering advantages such as accelerated parallel decoding and bidirectional context modeling. However, the vanilla decoding strategy in discrete dLLMs suffers from a critical limitation: once a token is accepted, it can no longer be revised in subsequent steps. As a result, early mistakes persist across iterations, harming both intermediate predictions and final output quality. To address this issue, we propose Tolerator (Token-Level Cross-Validation Refinement), a training-free decoding strategy that leverages cross-validation among predicted tokens. Unlike existing methods that follow a single progressive unmasking procedure, Tolerator introduces a two-stage process: (i) sequence fill-up and (ii) iterative refinement by remasking and decoding a subset of tokens while treating the remaining as context. This design enables previously accepted tokens to be reconsidered and corrected when necessary, leading to more reliable diffusion decoding outputs. We evaluate Tolerator on five standard benchmarks covering language understanding, code generation, and mathematics. Experiments show that our method achieves consistent improvements over the baselines under the same computational budget. These findings suggest that decoding algorithms are crucial to realizing the full potential of diffusion large language models. Code and data are publicly available.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、最近、自動回帰(AR)モデルに代わる有望な代替として登場し、並列デコーディングの高速化や双方向コンテキストモデリングなどの利点を提供している。
しかし、離散dLLMにおけるバニラ復号戦略は、重要な制限に悩まされ、トークンが受け入れられると、後続のステップで修正することはできない。
結果として、初期のミスはイテレーションを通して続き、中間的な予測と最終的な出力品質の両方を傷つけます。
この問題に対処するために,予測トークン間のクロスバリデーションを利用するトレーニングフリーデコード戦略であるTolerator(Token-Level Cross-Validation Refinement)を提案する。
1つのプログレッシブなアンマスキング手順に従う既存の方法とは異なり、Toleratorは2段階のプロセスを導入している。
(i)シークエンスフィリングとフィリング
(二 残余を文脈として扱いつつ、トークンのサブセットを書き換えて復号することにより反復的精錬。)
この設計により、事前に受け入れられたトークンを再検討し、必要に応じて修正することが可能となり、より信頼性の高い拡散復号出力が得られる。
言語理解,コード生成,数学の5つの標準ベンチマークでToleratorを評価した。
実験により,本手法は,同じ計算予算の下で,ベースラインよりも一貫した改善を実現することが示された。
これらの結果は,デコードアルゴリズムが拡散大言語モデルの潜在能力を実現する上で重要であることを示唆している。
コードとデータは公開されている。
関連論文リスト
- Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
本稿では,デコードウインドウを狭める正規化法であるConal decoding (Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。