論文の概要: Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
- arxiv url: http://arxiv.org/abs/2512.02892v1
- Date: Tue, 02 Dec 2025 16:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.954606
- Title: Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
- Title(参考訳): プログレッシブ・アウェア・信頼スケジューリングによる高速デコード拡散言語モデル
- Authors: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang,
- Abstract要約: トレーニング不要でモデルに依存しない早期終了アルゴリズムであるSchEDを提案する。
SchEDは完全なロジットマージンを集約し、スムーズで進捗に依存した信頼しきい値が満たされるとデコーディングを停止する。
我々は、SchEDが堅牢であり、信頼に基づく早期退避法よりも明らかに優れていることを示す。
- 参考スコア(独自算出の注目度): 25.251683954675958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves $3.8$-$4.0\times$ speedups while retaining $99.8$-$100\%$ of the baseline score on average. On base models, SchED yields consistent speedup gains with $99.1$-$100\%$ performance retention, with up to $2.34\times$ under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, $γ{=}4$), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は自己回帰モデルに代わる有望な代替手段を提供するが、その実用性は遅く反復的なサンプリングによって著しく妨げられている。
トレーニング不要でモデルに依存しない早期終了アルゴリズムであるSchEDを,スムーズで進捗に依存した信頼しきい値が満たされると,全ログマージンを集約し,復号を停止する。
我々は,2つのdLLMファミリー(DreamとLLaDA)上のSchedを,マルチチョイス質問応答(MCQ),数学,長文QA/要約,翻訳など,下流タスクにまたがる10のベンチマークにおいて,ベースおよび命令調整のバリエーションで評価した。
SchEDは、命令調整されたモデルで3.8$-$4.0\times$スピードアップを達成し、ベースラインスコアの99.8$-$100\%を平均で保持する。
ベースモデルでは、SchEDは99.1$-100\%$のパフォーマンス保持で、より攻撃的な設定で最大2.34\times$を得る。
品質損失(QPS, $γ{=}4$)を著しく減少させる保守的な速度測定値を用いて、SchEDは頑健であり、長大な生成を分解する従来の信頼に基づく早期退行法よりも明らかに優れていることを示す。
モデルのトークン予測のエントロピー解析により、命令チューニングが予測エントロピーの減衰を加速することを明らかにする。
真に信頼性の安定化を計算的貯蓄に変換することで、SchEDはdLLMデコードを大幅に効率化する。
関連論文リスト
- Improved Mean Flows: On the Challenges of Fastforward Generative Models [81.10827083963655]
MeanFlow (MF)は、最近ワンステップ生成モデリングのフレームワークとして確立されている。
ここでは、トレーニング目標とガイダンスメカニズムの両方において、重要な課題に対処する。
我々の改革により、より標準的な回帰問題が発生し、訓練安定性が向上する。
全体として、スクラッチから完全にトレーニングされた$textbfimproved MeanFlow$$(textbfiMF$)メソッドは、ImageNet 256$times$256上の単一の関数評価(1-NFE)で$textbf1.72$ FIDを達成する。
論文 参考訳(メタデータ) (2025-12-01T18:59:49Z) - Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。
LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文 参考訳(メタデータ) (2025-11-06T18:43:16Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Improving Long-term Autoregressive Spatiotemporal Predictions: A Proof of Concept with Fluid Dynamics [10.71350538032054]
複雑なシステムでは、エラーの蓄積によって長期的な精度が劣化することが多い。
我々はPushForwardフレームワークを提案する。PushForwardフレームワークは、マルチステップ学習を実現しつつ、ワンステップのトレーニングを継続する。
SPFはモデル予測から補足的データセットを構築し、取得戦略を通じて真実と組み合わせる。
論文 参考訳(メタデータ) (2025-08-25T23:51:18Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - SADA: Stability-guided Adaptive Diffusion Acceleration [24.250318487331228]
拡散モデルは生成的タスクにおいて顕著な成功を収めたが、高い計算コストに悩まされている。
既存のトレーニングフリー加速戦略は、ステップごとの計算コストを削減しつつ、サンプリング時間を効果的に削減し、信頼性を低下させる。
本稿では, ODE に基づく生成モデルのサンプリングを高速化する新しいパラダイムとして, 安定誘導型適応拡散加速法 (SADA) を提案する。
論文 参考訳(メタデータ) (2025-07-23T02:15:45Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。
モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:33:31Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。