論文の概要: The Disparate Impacts of Speculative Decoding
- arxiv url: http://arxiv.org/abs/2510.02128v1
- Date: Thu, 02 Oct 2025 15:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.190491
- Title: The Disparate Impacts of Speculative Decoding
- Title(参考訳): 投機的復号化の異なる影響
- Authors: Jameson Sandler, Ahmet Üstün, Marco Romanelli, Sara Hooker, Ferdinando Fioretto,
- Abstract要約: 投機的復号化(英: Speculative decoding)とは、大規模言語モデルの復号時間を体系的に短縮する手法である。
この論文は、投機的復号化によって得られたスピードアップは、一様にタスクに分散せず、不適合なタスクに対して一貫して減少し、しばしば表現不足なタスクであることを示している。
- 参考スコア(独自算出の注目度): 54.98795989404752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practice of speculative decoding, whereby inference is probabilistically supported by a smaller, cheaper, ``drafter'' model, has become a standard technique for systematically reducing the decoding time of large language models. This paper conducts an analysis of speculative decoding through the lens of its potential disparate speed-up rates across tasks. Crucially, the paper shows that speed-up gained from speculative decoding is not uniformly distributed across tasks, consistently diminishing for under-fit, and often underrepresented tasks. To better understand this phenomenon, we derive an analysis to quantify this observed ``unfairness'' and draw attention to the factors that motivate such disparate speed-ups to emerge. Further, guided by these insights, the paper proposes a mitigation strategy designed to reduce speed-up disparities and validates the approach across several model pairs, revealing on average a 12% improvement in our fairness metric.
- Abstract(参考訳): 投機的復号化の実践では,より小さく,より安価な 'drafter'' モデルによって推論が確率的に支持されるようになり,大規模言語モデルの復号化時間を体系的に短縮する標準手法となった。
本稿では,タスク間での潜在的な異なるスピードアップ速度のレンズによる投機的復号化について分析する。
重要なことは、投機的復号化によって得られたスピードアップは、一様にタスクに分散せず、不適合なタスクに対して一貫して減少し、しばしば表現不足なタスクであることを示している。
この現象をよりよく理解するために、観測された「不公平」を定量化するための分析を導き、そのような異なるスピードアップが出現する動機となる要因に注意を向ける。
さらに,これらの知見に導かれて,スピードアップの相違を低減し,複数のモデルペアにまたがるアプローチを検証するための緩和戦略を提案する。
関連論文リスト
- Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models [29.56923793047279]
本稿では,冗長トークンを選択的に抑制する訓練時間介入であるDynamic Outlier Truncation(DOT)を紹介する。
DOTは、完全に正しいロールアウトグループ内での応答長の極端のみを目標とし、長い水平推論能力を保っている。
提案手法は,初期ポリシーに比べて精度を高くしながら,推論トークンの使用率を78%削減する。
論文 参考訳(メタデータ) (2026-01-07T14:31:07Z) - From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers [0.0]
トランスフォーマーに基づくモデルが感情分析タスクに広く採用されている。
既存のモデルでは、主に一般的な単語に注意を向ける傾向があり、あまり人気がないがタスク関連性の高い用語を見越す傾向にある。
そこで本研究では,注意重みを適切な焦点に自動的に再分配する,AFA(Adversarial Feedback for Attention)トレーニング機構を提案する。
論文 参考訳(メタデータ) (2025-12-19T01:48:25Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Investigating the Impact of Quantization on Adversarial Robustness [22.637585106574722]
量子化は、ディープモデルのビット幅を減らし、実行時のパフォーマンスとストレージ効率を改善する技術である。
現実のシナリオでは、量子化されたモデルは、しばしば逆攻撃に直面する。
我々は、ロバストな最適化を組み込むことのできる量子化パイプラインコンポーネントの影響を、初めて分析する。
論文 参考訳(メタデータ) (2024-04-08T16:20:15Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。