論文の概要: Improving the Throughput of Diffusion-based Large Language Models via a Training-Free Confidence-Aware Calibration
- arxiv url: http://arxiv.org/abs/2512.07173v1
- Date: Mon, 08 Dec 2025 05:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.715752
- Title: Improving the Throughput of Diffusion-based Large Language Models via a Training-Free Confidence-Aware Calibration
- Title(参考訳): 学習自由信頼度を考慮した校正による拡散型大規模言語モデルのスループット向上
- Authors: Jucheng Shen, Gaurav Sarkar, Yeonju Ro, Sharath Nittur Sridhar, Zhangyang Wang, Aditya Akella, Souvik Kundu,
- Abstract要約: CadLLM は拡散型 LLM の推論スループットを高速化する訓練不要な手法である。
まず、ブロックやステップ間の信頼を解き放つトークンの動的性質について検討する。
本稿では,未一致トークンの平均信頼度に基づいて,生成ブロックサイズ,ステップサイズ,しきい値を制御する軽量適応方式を提案する。
- 参考スコア(独自算出の注目度): 47.650712348544204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CadLLM, a training-free method to accelerate the inference throughput of diffusion-based LLMs (dLLMs). We first investigate the dynamic nature of token unmasking confidence across blocks and steps. Based on this observation, we present a lightweight adaptive approach that controls the generation block size, step size, and threshold based on the average confidence of unmasked tokens. We further reduce softmax overhead by dynamically leveraging a subset of the vocabulary to regulate sampling breadth. CadLLM is a plug-and-play, model-agnostic method compatible with KV-cache-based dLLMs. Extensive experiments on four popular tasks demonstrate that CadLLM yields up to 2.28x throughput improvement over the state-of-the-art baseline with competitive accuracy.
- Abstract(参考訳): 拡散型LLM(dLLM)の推論スループットを高速化する訓練不要な手法であるCadLLMを提案する。
まず、ブロックやステップ間の信頼を解き放つトークンの動的性質について検討する。
本研究は, マスクのないトークンの平均信頼度に基づいて, 生成ブロックサイズ, ステップサイズ, しきい値を制御する軽量適応方式を提案する。
さらに、語彙のサブセットを動的に活用して、サンプリング幅の調整を行うことで、ソフトマックスオーバーヘッドを低減します。
CadLLMは、KV-cacheベースのdLLMと互換性のある、プラグアンドプレイのモデルに依存しないメソッドである。
一般的な4つのタスクに対する大規模な実験により、CadLLMは最先端のベースラインよりも最大2.28倍のスループット向上を達成している。
関連論文リスト
- Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models [47.41616630151171]
拡散大言語モデル (dLLMs) は双方向のコンテキストと柔軟なマスマスキングデノジング生成を提供する。
我々は,dLLMに適した超低ビットPTQフレームワークであるQuant-dLLMを提案する。
Quant-dLLMは、dLLM上での最先端(SOTA)AR-transfer PTQ法よりも高い精度を達成する。
論文 参考訳(メタデータ) (2025-09-27T13:50:42Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文 参考訳(メタデータ) (2024-10-06T17:12:10Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。