論文の概要: Latency and Token-Aware Test-Time Compute
- arxiv url: http://arxiv.org/abs/2509.09864v1
- Date: Thu, 11 Sep 2025 21:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.92845
- Title: Latency and Token-Aware Test-Time Compute
- Title(参考訳): レイテンシとToken-Awareテスト時間計算
- Authors: Jenny Y. Huang, Mehul Damani, Yousef El-Kurdi, Ramon Astudillo, Wei Sun,
- Abstract要約: 推測時間スケーリングは、複数の候補応答を生成し、それらの中から選択することで、大きな言語モデル(LLM)の性能を向上させることができる。
動的計算アロケーションとメソッド選択の問題として,推論時間スケーリングを定式化する。
我々のフレームワークはトークンコストとウォールクロックのレイテンシの両方を明示的に組み込んでおり、後者はユーザエクスペリエンス、特にエージェントモデルにとって重要なものです。
- 参考スコア(独自算出の注目度): 3.573250939705335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time scaling has emerged as a powerful way to improve large language model (LLM) performance by generating multiple candidate responses and selecting among them. However, existing work on dynamic allocation for test-time compute typically considers only parallel generation methods such as best-of-N, overlooking incremental decoding methods like beam search, and has largely ignored latency, focusing only on token usage. We formulate inference-time scaling as a problem of dynamic compute allocation and method selection, where the system must decide which strategy to apply and how much compute to allocate on a per-query basis. Our framework explicitly incorporates both token cost and wall-clock latency, the latter being critical for user experience and particularly for agentic workflows where models must issue multiple queries efficiently. Experiments on reasoning benchmarks show that our approach consistently outperforms static strategies, achieving favorable accuracy-cost trade-offs while remaining practical for deployment.
- Abstract(参考訳): 推測時間スケーリングは、複数の候補応答を生成し、それらの中から選択することで、大規模言語モデル(LLM)のパフォーマンスを向上させる強力な方法として現れている。
しかしながら、テスト時間計算の動的アロケーションに関する既存の研究は、一般的に、ビームサーチのようなインクリメンタルデコード方法を見越して、ベスト・オブ・Nのような並列生成メソッドのみを考慮し、トークンの使用のみに焦点をあてて、ほとんど遅延を無視している。
動的計算割り当てとメソッド選択の問題として推論時間スケーリングを定式化し、どの戦略を適用するか、どの計算をクエリ毎に割り当てるかをシステムが決めなければならない。
我々のフレームワークはトークンコストとウォールクロックのレイテンシの両方を明示的に取り入れており、後者はユーザエクスペリエンス、特にモデルが複数のクエリを効率的に発行しなければならないエージェントワークフローにとって重要である。
推論ベンチマークの実験は、我々のアプローチが静的戦略を一貫して上回り、デプロイに実用的でありながら、良好な精度とコストのトレードオフを実現していることを示している。
関連論文リスト
- Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。
本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。
我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-26T18:04:49Z) - Towards Compute-Optimal Many-Shot In-Context Learning [69.38428467281862]
マルチショットICLにおけるデモ選択のための2つの戦略を提案する。
最初の方法は、テストサンプルの類似性に基づいて選択された少数のデモと、キャッシュされるランダムなデモの集合を組み合わせる。
第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
論文 参考訳(メタデータ) (2025-07-22T04:21:03Z) - Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling [20.605487145370752]
推論時間スケーリングは、テスト時間計算の増大を通じて、大きな言語モデル(LLM)の性能向上に有効であることが証明されている。
しかし、実際的な応用は、外部検証への依存や、現実的な計算制約に対する最適化の欠如によってしばしば妨げられる。
我々はDynScalingを提案し、これらの制限を2つの主要なイノベーション、すなわち並列シーケンスサンプリング戦略と帯域幅に基づく動的予算配分フレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-06-19T05:40:54Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。