Fugu-MT 論文翻訳(概要): Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models

論文の概要: Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models

arxiv url: http://arxiv.org/abs/2510.05090v1
Date: Mon, 06 Oct 2025 17:56:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:53:00.043468
Title: Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models
Title（参考訳）: 拡散大言語モデルのためのテスト時間Token-Levelクロスバリデーション
Authors: Runchu Tian, Junxia Cui, Xueqiang Xu, Feng Yao, Jingbo Shang,
Abstract要約: 拡散大言語モデル(dLLM)は、並列デコーディングの高速化や双方向コンテキストモデリングといった利点を提供する。離散dLLMにおけるバニラデコーディング戦略は、重要な制限に悩まされる。トークンが受け入れられると、後続のステップで修正することはできない。予測トークン間のクロスバリデーションを利用するトレーニングフリーなデコーディング戦略であるToleratorを提案する。
参考スコア（独自算出の注目度）: 47.5976588836299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion large language models (dLLMs) have recently emerged as a promising alternative to autoregressive (AR) models, offering advantages such as accelerated parallel decoding and bidirectional context modeling. However, the vanilla decoding strategy in discrete dLLMs suffers from a critical limitation: once a token is accepted, it can no longer be revised in subsequent steps. As a result, early mistakes persist across iterations, harming both intermediate predictions and final output quality. To address this issue, we propose Tolerator (Token-Level Cross-Validation Refinement), a training-free decoding strategy that leverages cross-validation among predicted tokens. Unlike existing methods that follow a single progressive unmasking procedure, Tolerator introduces a two-stage process: (i) sequence fill-up and (ii) iterative refinement by remasking and decoding a subset of tokens while treating the remaining as context. This design enables previously accepted tokens to be reconsidered and corrected when necessary, leading to more reliable diffusion decoding outputs. We evaluate Tolerator on five standard benchmarks covering language understanding, code generation, and mathematics. Experiments show that our method achieves consistent improvements over the baselines under the same computational budget. These findings suggest that decoding algorithms are crucial to realizing the full potential of diffusion large language models. Code and data are publicly available.
Abstract（参考訳）: 拡散大言語モデル(dLLM)は、最近、自動回帰(AR)モデルに代わる有望な代替として登場し、並列デコーディングの高速化や双方向コンテキストモデリングなどの利点を提供している。しかし、離散dLLMにおけるバニラ復号戦略は、重要な制限に悩まされ、トークンが受け入れられると、後続のステップで修正することはできない。結果として、初期のミスはイテレーションを通して続き、中間的な予測と最終的な出力品質の両方を傷つけます。この問題に対処するために,予測トークン間のクロスバリデーションを利用するトレーニングフリーデコード戦略であるTolerator(Token-Level Cross-Validation Refinement)を提案する。 1つのプログレッシブなアンマスキング手順に従う既存の方法とは異なり、Toleratorは2段階のプロセスを導入している。 (i)シークエンスフィリングとフィリング (二残余を文脈として扱いつつ、トークンのサブセットを書き換えて復号することにより反復的精錬。) この設計により、事前に受け入れられたトークンを再検討し、必要に応じて修正することが可能となり、より信頼性の高い拡散復号出力が得られる。言語理解,コード生成,数学の5つの標準ベンチマークでToleratorを評価した。実験により,本手法は,同じ計算予算の下で,ベースラインよりも一貫した改善を実現することが示された。これらの結果は,デコードアルゴリズムが拡散大言語モデルの潜在能力を実現する上で重要であることを示唆している。コードとデータは公開されている。

論文の概要: Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models

関連論文リスト