論文の概要: Optimizing Agentic Language Model Inference via Speculative Tool Calls
- arxiv url: http://arxiv.org/abs/2512.15834v1
- Date: Wed, 17 Dec 2025 18:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.756337
- Title: Optimizing Agentic Language Model Inference via Speculative Tool Calls
- Title(参考訳): 投機的ツールコールによるエージェント言語モデル推論の最適化
- Authors: Daniel Nichols, Prajwal Singhania, Charles Jekel, Abhinav Bhatele, Harshitha Menon,
- Abstract要約: 推論過程における性能ボトルネックに対処するために,新しいシステム最適化を導入する。
我々の最適化により、LMエージェントの推論をホストする場合、毎秒数百トークンのスループットが向上する。
LMプロバイダがこれらの最適化を簡単に適用できるように、新しい"ツールキャッシュ"APIエンドポイントを推奨します。
- 参考スコア(独自算出の注目度): 4.106903307413157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are becoming increasingly dependent on external tools. LM-based agentic frameworks frequently interact with their environment via such tools to search files, run code, call APIs, etc. Further, modern reasoning-based LMs use tools such as web search and Python code execution to enhance their reasoning capabilities. While tools greatly improve the capabilities of LMs, they also introduce performance bottlenecks during the inference process. In this paper, we introduce novel systems optimizations to address such performance bottlenecks by speculating tool calls and forcing sequences to remain resident in the inference engine to minimize overheads. Our optimizations lead to throughput improvements of several hundred tokens per second when hosting inference for LM agents. We provide a theoretical analysis of our algorithms to provide insights into speculation configurations that will yield the best performance. Further, we recommend a new "tool cache" API endpoint to enable LM providers to easily adopt these optimizations.
- Abstract(参考訳): 言語モデル(LM)は、ますます外部ツールに依存している。
LMベースのエージェントフレームワークは、ファイルの検索、コードの実行、APIの呼び出しなどのツールを介して環境と対話することが多い。
さらに、現代的な推論ベースのLMでは、Web検索やPythonコード実行などのツールを使用して、推論機能を強化しています。
ツールはLMの機能を大幅に改善しますが、推論プロセス中にパフォーマンスボトルネックも導入します。
本稿では,ツールコールを推測し,オーバヘッドを最小限に抑えるため,推論エンジンに保持するシーケンスを強制することで,そのようなパフォーマンスボトルネックに対処する新しいシステムを提案する。
我々の最適化により、LMエージェントの推論をホストする場合、毎秒数百トークンのスループットが向上する。
我々は,提案アルゴリズムの理論的解析を行い,最高の性能が得られる投機構成について考察する。
さらに、LMプロバイダがこれらの最適化を簡単に適用できるように、新しい"ツールキャッシュ"APIエンドポイントを推奨します。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。