論文の概要: Predict-then-Diffuse: Adaptive Response Length for Compute-Budgeted Inference in Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2605.04215v1
- Date: Tue, 05 May 2026 18:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.495929
- Title: Predict-then-Diffuse: Adaptive Response Length for Compute-Budgeted Inference in Diffusion LLMs
- Title(参考訳): 予測誤差:拡散LDMにおける計算予算推論のための適応応答長
- Authors: Michael Rottoli, Subhankar Roy, Stefano Paraboschi,
- Abstract要約: 拡散に基づく大規模言語モデル(DLLM)は、生成AIにおける有望なフロンティアである。
DLLMは完全な並列トークン生成を提供し、大きなスループットの優位性とGPU利用の優位性をもたらす。
しかし、この並列性は、生成前の固定サイズ応答長の要求によって制約される。
このアーキテクチャ上の制限は、厳しいトレードオフを課している。
- 参考スコア(独自算出の注目度): 7.630708097054872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Large Language Models (D-LLMs) represent a promising frontier in generative AI, offering fully parallel token generation that can lead to significant throughput advantages and superior GPU utilization over traditional autoregressive paradigm. However, this parallelism is constrained by the requirement of a fixed-size response length prior to generation. This architectural limitation imposes a severe trade-off: oversized response length results in computational waste on semantically meaningless padding tokens, while undersized response length cause output truncation requiring costly re-computations that introduce unpredictable latency spikes. To tackle this issue, we propose Predict-then-Diffuse, a simple and model-agnostic framework, that enables compute-budgeted inference per input query by first estimating the response length and then using it to run inference with D-LLM. At its core lies a Adaptive Response Length Predictor (AdaRLP) auxiliary predictor that predicts the optimal response length given an input query. As a measure against under-predicting the response length and re-running inference with a higher response length, we introduce a data-driven safety mechanism, which trades a negligible padding overhead. As a whole, our framework limits the significant waste of computation on padding tokens and preserves output quality. Experimental validation on multiple datasets demonstrate that Predict-then-Diffuse significantly reduces computational costs (FLOP) compared to the default D-LLM inference mechanism and baselines based on heuristics, while being robust to skewed data distributions.
- Abstract(参考訳): 拡散ベースの大規模言語モデル(D-LLM)は、ジェネレーティブAIにおける有望なフロンティアであり、完全な並列トークン生成を提供することで、従来の自己回帰パラダイムよりも優れたスループットとGPU利用を実現する。
しかし、この並列性は、生成前の固定サイズ応答長の要求によって制約される。
過大な応答長は意味論的に無意味なパディングトークンに計算の無駄をもたらすが、低大な応答長は予測不可能な遅延スパイクをもたらすコストのかかる再計算を必要とする出力のトランケーションを引き起こす。
この問題に対処するために、まず応答長を推定し、D-LLMで推論を実行することにより、入力クエリ毎の計算予算推論を可能にする、シンプルでモデルに依存しないフレームワークであるPredict-then-Diffuseを提案する。
コアには適応応答長予測器(AdaRLP)があり、入力クエリが与えられた最適応答長を予測する。
応答長を過小評価し,より高い応答長で推論を再実行するための手段として,データ駆動型安全機構を導入する。
全体として、当社のフレームワークは、パディングトークンに対する計算のかなりの無駄を制限し、出力品質を保ちます。
複数のデータセットに対する実験的な検証により、Predict-then-Diffuseは、ヒューリスティックスに基づくデフォルトのD-LLM推論機構やベースラインと比較して計算コスト(FLOP)を著しく削減し、スキューデータ分布に対して堅牢であることが示された。
関連論文リスト
- Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Do Stop Me Now: Detecting Boilerplate Responses with a Single Iteration [0.0]
大規模言語モデル(LLM)は、しばしばボイラープレート応答を生成する重要な計算資源を消費する。
本稿では,単一生成段階の後に応答を検出するための簡易かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2025-10-26T13:43:56Z) - Adaptively Robust LLM Inference Optimization under Prediction Uncertainty [9.541681114575812]
本稿では,Large Language Model (LLM) 推論スケジューリングを最適化し,全遅延を最小化する問題について検討する。
LLM推論の鍵となる課題は、実行時の長さが分かる一方で、メモリ使用量や処理時間に重大な影響を及ぼす出力長が不明であることである。
本稿では,各要求に対して間隔分類(min-max range)を提供すると仮定して,機械学習を利用して出力長を予測するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:55:26Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。