論文の概要: Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01237v1
- Date: Sun, 01 Feb 2026 13:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.672616
- Title: Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける効率的な推論時間推論のための予測スケジューリング
- Authors: Katrina Brown, Aneesh Muppidi, Rana Shahout,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて最先端の精度を達成する。
しかし、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算とハードな入力の過小計算につながる。
プラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入する。このフレームワークは軽量な予測器を事前実行し、各クエリの最適な推論の長さや難易度を全世代前に推定する。
- 参考スコア(独自算出の注目度): 6.002670452103349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve state-of-the-art accuracy on complex reasoning tasks by generating multiple chain-of-thought (CoT) traces, but using a fixed token budget per query leads to over-computation on easy inputs and under-computation on hard ones. We introduce Predictive Scheduling, a plug-and-play framework that pre-runs lightweight predictors, an MLP on intermediate transformer hidden states or a LoRA-fine-tuned classifier on raw question text, to estimate each query's optimal reasoning length or difficulty before any full generation. Our greedy batch allocator dynamically distributes a fixed total token budget across queries to maximize expected accuracy. On the GSM8K arithmetic benchmark, predictive scheduling yields up to 7.9 percentage points of absolute accuracy gain over uniform budgeting at identical token cost, closing over 50\% of the gap to an oracle with perfect foresight. A systematic layer-wise study reveals that middle layers (12 - 17) of the transformer carry the richest signals for size estimation. These results demonstrate that pre-run budget prediction enables fine-grained control of the compute-accuracy trade-off, offering a concrete path toward latency-sensitive, cost-efficient LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のチェーン・オブ・シークレット(CoT)トレースを生成することで、複雑な推論タスクの最先端の精度を達成するが、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算やハードな処理の過小評価につながる。
我々は,軽量な予測器,中間変圧器隠蔽状態のMLP,あるいは生の質問文のLoRA微調整分類器をプリランするプラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入し,各クエリの最適な推論長や難易度を,全世代前に推定する。
我々の欲求バッチアロケータは、予測精度を最大化するために、クエリ間で固定された全トークン予算を動的に分散する。
GSM8Kの算術ベンチマークでは、予測的スケジューリングは同一のトークンコストでの均一な予算化よりも最大7.9パーセントの精度向上を達成し、完全なフォアビジョンを持つオラクルとのギャップの50%以上を閉じる。
系統的な層ワイド研究により、トランスの中間層(12~17)が、最もリッチな信号を持っていて、サイズを推定できることがわかった。
これらの結果は,事前予算予測によって計算精度のトレードオフをきめ細かな制御が可能であり,遅延に敏感でコスト効率のよいLCMデプロイメントへの具体的な経路を提供することを示す。
関連論文リスト
- ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Adaptively Robust LLM Inference Optimization under Prediction Uncertainty [9.541681114575812]
本稿では,Large Language Model (LLM) 推論スケジューリングを最適化し,全遅延を最小化する問題について検討する。
LLM推論の鍵となる課題は、実行時の長さが分かる一方で、メモリ使用量や処理時間に重大な影響を及ぼす出力長が不明であることである。
本稿では,各要求に対して間隔分類(min-max range)を提供すると仮定して,機械学習を利用して出力長を予測するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:55:26Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。