論文の概要: Optimizing Agentic Language Model Inference via Speculative Tool Calls
- arxiv url: http://arxiv.org/abs/2512.15834v1
- Date: Wed, 17 Dec 2025 18:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.756337
- Title: Optimizing Agentic Language Model Inference via Speculative Tool Calls
- Title(参考訳): 投機的ツールコールによるエージェント言語モデル推論の最適化
- Authors: Daniel Nichols, Prajwal Singhania, Charles Jekel, Abhinav Bhatele, Harshitha Menon,
- Abstract要約: 推論過程における性能ボトルネックに対処するために,新しいシステム最適化を導入する。
我々の最適化により、LMエージェントの推論をホストする場合、毎秒数百トークンのスループットが向上する。
LMプロバイダがこれらの最適化を簡単に適用できるように、新しい"ツールキャッシュ"APIエンドポイントを推奨します。
- 参考スコア(独自算出の注目度): 4.106903307413157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are becoming increasingly dependent on external tools. LM-based agentic frameworks frequently interact with their environment via such tools to search files, run code, call APIs, etc. Further, modern reasoning-based LMs use tools such as web search and Python code execution to enhance their reasoning capabilities. While tools greatly improve the capabilities of LMs, they also introduce performance bottlenecks during the inference process. In this paper, we introduce novel systems optimizations to address such performance bottlenecks by speculating tool calls and forcing sequences to remain resident in the inference engine to minimize overheads. Our optimizations lead to throughput improvements of several hundred tokens per second when hosting inference for LM agents. We provide a theoretical analysis of our algorithms to provide insights into speculation configurations that will yield the best performance. Further, we recommend a new "tool cache" API endpoint to enable LM providers to easily adopt these optimizations.
- Abstract(参考訳): 言語モデル(LM)は、ますます外部ツールに依存している。
LMベースのエージェントフレームワークは、ファイルの検索、コードの実行、APIの呼び出しなどのツールを介して環境と対話することが多い。
さらに、現代的な推論ベースのLMでは、Web検索やPythonコード実行などのツールを使用して、推論機能を強化しています。
ツールはLMの機能を大幅に改善しますが、推論プロセス中にパフォーマンスボトルネックも導入します。
本稿では,ツールコールを推測し,オーバヘッドを最小限に抑えるため,推論エンジンに保持するシーケンスを強制することで,そのようなパフォーマンスボトルネックに対処する新しいシステムを提案する。
我々の最適化により、LMエージェントの推論をホストする場合、毎秒数百トークンのスループットが向上する。
我々は,提案アルゴリズムの理論的解析を行い,最高の性能が得られる投機構成について考察する。
さらに、LMプロバイダがこれらの最適化を簡単に適用できるように、新しい"ツールキャッシュ"APIエンドポイントを推奨します。
関連論文リスト
- Verification-Guided Context Optimization for Tool Calling via Hierarchical LLMs-as-Editors [6.990045323115733]
ツール関連のドキュメンテーションや知識ベースコンテキストを自動的に洗練する,大規模言語モデルをエディタとして使用するフレームワークであるVGCOを提案する。
まず、ツール呼び出しワークフローに自然に統合される階層構造を使用する。
第二に、状態認識、アクション特化、検証誘導であり、検索スペースを制限し、効率的で目標とする改善を可能にする。
論文 参考訳(メタデータ) (2025-12-15T19:48:21Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving [6.19179006129561]
本稿では,逐次的かつコンテキスト対応な意思決定プロセスとして最適化を定式化する,新しいコンパイルフレームワーク(Dubbed Reasoning)を提案する。
提案手法は,LLM誘導推論がコンパイラ最適化のランドスケープを変革する可能性を示す。
論文 参考訳(メタデータ) (2025-06-02T07:02:46Z) - A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency [11.82688729820324]
本稿では,25個のオープンソースおよび商用推論エンジンの総合評価を行う。
本稿では,各推論エンジンについて,スループットとレイテンシを考慮した計算における使いやすさ,使いやすさ,汎用サポート,スケーラビリティ,適合性の観点から検討する。
論文 参考訳(メタデータ) (2025-05-03T02:47:43Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。