論文の概要: PruneTIR: Inference-Time Tool Call Pruning for Effective yet Efficient Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2605.09931v1
- Date: Mon, 11 May 2026 03:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.495245
- Title: PruneTIR: Inference-Time Tool Call Pruning for Effective yet Efficient Tool-Integrated Reasoning
- Title(参考訳): PruneTIR: 効果的な効果的なツール統合推論のための推論時間ツールコール
- Authors: Luan Zhang, Dandan Song, Zhijing Wu, Zhengyu Chen, Chen Zhang, Yuhang Tian, Huipeng Ma, Chenhao Li, Changzhi Zhou, Xudong Li, Shuhao Zhang,
- Abstract要約: ツール統合推論により、コードインタプリタ(CI)のような外部ツールと対話することで、大きな言語モデル(LLM)が機能を強化することができる。
推論時の推論を改善するには追加のトレーニングは必要ありません。
本稿では,推論時にツール統合推論を強化するフレームワークPruneTIRを提案する。
- 参考スコア(独自算出の注目度): 19.31102535778557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-integrated reasoning (TIR) enables large language models (LLMs) to enhance their capabilities by interacting with external tools, such as code interpreters (CI). Most recent studies focus on exploring various methods to equip LLMs with the ability to use tools. However, how to further boost the reasoning ability of already tool-capable LLMs at inference time remains underexplored. Improving reasoning at inference time requires no additional training and can help LLMs better leverage tools to solve problems. We observe that, during tool-capable LLM inference, both the number and the proportion of erroneous tool calls are negatively correlated with answer correctness. Moreover, erroneous tool calls are typically resolved successfully within a few subsequent turns. If not, LLMs often struggle to resolve such errors even with many additional turns. Building on the above observations, we propose PruneTIR, a rather effective yet efficient framework that enhances the tool-integrated reasoning at inference time. During LLM inference, PruneTIR prunes trajectories, resamples tool calls, and suspends tool usage through three components: Success-Triggered Pruning, Stuck-Triggered Pruning and Resampling, and Retry-Triggered Tool Suspension. These three components enable PruneTIR to mitigate the negative impact of erroneous tool calls and prevent LLMs from getting stuck in repeated failed resolution attempts, thereby improving overall LLM performance. Extensive experimental results demonstrate the effectiveness of PruneTIR, which significantly improves Pass@1 and efficiency while reducing the working context length for tool-capable LLMs.
- Abstract(参考訳): ツール統合推論(TIR)は、コードインタプリタ(CI)などの外部ツールと対話することで、大きな言語モデル(LLM)の能力を高める。
近年の研究では、LLMとツールを併用する様々な方法の探索に焦点が当てられている。
しかし、既存のツール対応LCMの推論時の推論能力をさらに向上するには、まだ未定である。
推論時の推論を改善するには追加のトレーニングは必要ありません。
ツール能力のLLM推論では,誤ツール呼び出しの回数と比率が正解率と負の相関関係があることが観察された。
さらに、誤ったツールコールは、通常、数回のターンで正常に解決される。
もしそうでなければ、LLMは、多くの追加のターンがあっても、そのようなエラーを解決するのに苦労する。
上述の観測結果に基づいて,推論時のツール統合推論を強化する,比較的効率的かつ効率的なフレームワークであるPruneTIRを提案する。
LLM推論では、PruneTIR prunes trajectories、resamplesツールコール、success-Triggered Pruning、Stuck-Triggered Pruning and Resampling、Retry-Triggered Tool Suspensionの3つのコンポーネントを通じてツールの使用を停止する。
これら3つのコンポーネントによってPruneTIRは、誤ったツールコールによるネガティブな影響を緩和し、繰り返し失敗する解決の試みでLSMが立ち往生することを防ぐ。
PruneTIRはPass@1と効率を大幅に改善し,ツール対応LCMの作業コンテキスト長を低減した。
関連論文リスト
- Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - Self-Training Large Language Models for Tool-Use Without Demonstrations [15.17750971071501]
大規模言語モデル (LLMs) は、実際の不正確さや計算ミスに悩まされがちである。
最近の研究は、これらの欠点を緩和するツールを備えたLCMを強化しているが、しばしば金の工具使用デモを必要とする。
本稿では,LLMが実演なしでツールの活用を学べるかどうかを検討する。
論文 参考訳(メタデータ) (2025-02-09T12:06:10Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。