論文の概要: Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States
- arxiv url: http://arxiv.org/abs/2510.11052v1
- Date: Mon, 13 Oct 2025 06:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.224175
- Title: Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States
- Title(参考訳): 潜時リファインメントデコーディング:信頼状態の精製による拡散型言語モデルの強化
- Authors: Qinglin Zhu, Yizhen Yao, Runcong Zhao, Yanzheng Xiang, Amrutha Saseendran, Chen Jin, Philip Alexander Teare, Bin Liang, Yulan He, Lin Gui,
- Abstract要約: 本稿では、Latent Refinement Decoding (LRD) と予測フィードバックループを備えた2段階のフレームワークについて紹介する。
LRDは最大10.6倍のスピードアップを提供しながら精度を向上し、並列シーケンス生成の強力な代替手段となる。
- 参考スコア(独自算出の注目度): 27.833216890807023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) models remain the standard for natural language generation but still suffer from high latency due to strictly sequential decoding. Recent diffusion-inspired approaches, such as LlaDA and Dream, mitigate this by generating in parallel, yet they suffer from two core limitations: information loss, as predictive distributions for non-finalized tokens are discarded at each step, and premature commitment, where local decisions are made without sufficient global coordination. We introduce Latent Refinement Decoding (LRD), a two-stage framework with Latent Refinement and a Predictive Feedback Loop. The first stage maintains masked positions as distributional mixtures of predicted tokens and the mask embedding, allowing the model to establish more globally consistent beliefs. The second stage progressively finalizes confident tokens while retaining uncertain ones for iterative feedback. KL-divergence dynamics provide a principled and reliable criterion for convergence and early stopping. Experiments across coding (HumanEval +6.3, MBPP +2.6) and reasoning (GSM8K +2.9, MATH500 +3.8) show that LRD improves accuracy while delivering speedups of up to 10.6x, making it a strong and versatile alternative for parallel sequence generation.
- Abstract(参考訳): 自動回帰(AR)モデルは、自然言語生成の標準のままだが、厳密なシーケンシャルな復号化のため、依然として高いレイテンシに悩まされている。
LlaDAやDreamのような近年の拡散にインスパイアされたアプローチは、並列に生成することでこれを緩和するが、情報損失、非ファイナライズトークンの予測分布は各ステップで破棄されるため、局所的な決定を十分なグローバルな調整なしに行うという、早期のコミットメントという2つの主要な制限に悩まされている。
本稿では、Latent Refinement Decoding (LRD) と予測フィードバックループを備えた2段階のフレームワークについて紹介する。
第1段階では、予測トークンとマスク埋め込みの分散混合としてマスク位置を維持しており、モデルがより普遍的に一貫した信念を確立することができる。
第2段階は、信頼性のあるトークンを段階的に最終化し、繰り返しフィードバックのための不確実なトークンを保持します。
KL分割力学は収束と早期停止の原理的かつ信頼性の高い基準を提供する。
符号化(HumanEval +6.3, MBPP +2.6)と推論(GSM8K +2.9, MATH500 +3.8)による実験は、LRDが最大10.6倍のスピードアップを提供しながら精度を向上し、並列シーケンス生成のための強力で汎用的な代替手段であることを示している。
関連論文リスト
- Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。
単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。
そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-10T16:58:14Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [64.20587321033149]
本稿では、離散化作用チャンクを離散拡散でモデル化し、VLMバックボーンと同じエントロピー目的で訓練するシングルトランスフォーマーポリシーを提案する。
本手法は, 簡単な動作要素をハードなものよりも先に解決する適応的復号法を実現する。
この統合デコーダは、事前訓練された視覚言語を保存し、並列デコードをサポートし、自己回帰的ボトルネックを破り、機能評価の回数を減らす。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Continuous Speculative Decoding for Autoregressive Image Generation [27.308442169466975]
連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。