論文の概要: TimeBill: Time-Budgeted Inference for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.21859v1
- Date: Fri, 26 Dec 2025 04:49:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:57:56.327328
- Title: TimeBill: Time-Budgeted Inference for Large Language Models
- Title(参考訳): TimeBill: 大規模言語モデルに対する時間予算推論
- Authors: Qi Fan, An Zou, Yehan Ma,
- Abstract要約: 大規模言語モデル(LLM)のための新しい時間予算推論フレームワークであるTimeBillを提案する。
より具体的には、LLMのエンドツーエンド実行時間を正確に予測する粒度応答長予測器(RLP)と実行時間推定器(ETE)を提案する。
次に、実行時間予測と所定の時間予算に基づいて、KVキャッシュ消去率を適応的に調整する、時間予算の効率的な推論手法を開発する。
- 参考スコア(独自算出の注目度): 12.536212788514815
- License:
- Abstract: Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ロボット工学、自律運転、インボディードインテリジェンス、産業自動化などの時間クリティカルなシステムにおいて、意思決定、制御、安全クリティカルなタスクにおいて、所定の時間予算内で正確な応答を生成することが不可欠である。
しかし, LLMの自動回帰生成プロセスは, エンドツーエンドの実行時間をモデル化し, 推定することが困難である。
さらに、固定鍵値(KV)キャッシュ消去比に基づく既存の効率的な推論手法は、不適切な消去比が不完全な推論や応答性能の低下につながる可能性のある、様々な時間予算のタスクに対応するのに苦労する。
本稿では,推定効率と応答性能のバランスをとるLLMのための新しい時間予算推論フレームワークであるTimeBillを提案する。
より具体的には、LLMのエンドツーエンド実行時間を正確に予測する粒度応答長予測器(RLP)と実行時間推定器(ETE)を提案する。
次に、実行時間予測と所定の時間予算に基づいて、KVキャッシュ消去率を適応的に調整する、時間予算の効率的な推論手法を開発する。
最後に、広範囲な実験を通じて、様々なオーバーラン戦略の下でタスク完了率を改善し、応答性能を維持する上で、TimeBillの利点を実証する。
関連論文リスト
- Time-Fair Benchmarking for Metaheuristics: A Restart-Fair Protocol for Fixed-Time Comparisons [0.0]
この論文は、壁時計時間は、FEのみではなく、公平な比較のための主要な予算制約として機能するべきであることを示唆している。
我々は,各アルゴリズムが同一のウォールクロック時間予算を問題インスタンス毎に割り当てる固定時間再起動時間ベンチマークプロトコルを定式化する。
論文 参考訳(メタデータ) (2025-09-10T20:33:54Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。
彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。
本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文 参考訳(メタデータ) (2025-07-02T18:27:42Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions [56.88110850242265]
本稿では,現実の調理シナリオに基づいた新しいベンチマークフレームワークRecipe2Planを紹介する。
従来のベンチマークとは異なり、Recipe2Planは並列タスク実行による調理時間を最適化するためにエージェントに挑戦する。
論文 参考訳(メタデータ) (2025-03-04T03:27:02Z) - Anytime Incremental $ρ$POMDP Planning in Continuous Spaces [5.767643556541711]
我々は、時間とともに改善の正式な保証とともに、信念表現を動的に洗練する時限解法を提案する。
一般的なエントロピー推定器の有効性を示し、計算コストを桁違いに削減する。
実験の結果,$rho$POMCPOW は効率と解品質の両方において最先端の解法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T18:19:40Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Execution time budget assignment for mixed criticality systems [0.0]
混合臨界時間システムにおいて,実行変数をどのように活用できるかを示す。
実行時間可変性に応じて、各低臨界リアルタイムタスクに割り当てられる実行時間予算をリアルに計算する。
論文 参考訳(メタデータ) (2023-11-14T07:55:56Z) - Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。
時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。
我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。
提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文 参考訳(メタデータ) (2022-10-02T06:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。