論文の概要: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use
- arxiv url: http://arxiv.org/abs/2602.20426v1
- Date: Mon, 23 Feb 2026 23:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.558719
- Title: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use
- Title(参考訳): 信頼性の高いLLMエージェントツール用ツール記述書の書き直し学習
- Authors: Ruocheng Guo, Kaiwen Dong, Xiang Gao, Kamalika Das,
- Abstract要約: トレースリッチな設定からトレースフリーなデプロイメントへ監督を移行するカリキュラム学習フレームワークを提案する。
実験では、予期せぬツール、強力なクロスドメインの一般化、そして、候補ツールの数が100を超えるほど堅牢性に一貫した向上が示されている。
- 参考スコア(独自算出の注目度): 21.666294374943178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of LLM-based agents depends not only on the agent itself but also on the quality of the tool interfaces it consumes. While prior work has focused heavily on agent fine-tuning, tool interfaces-including natural language descriptions and parameter schemas-remain largely human-oriented and often become a bottleneck, especially when agents must select from large candidate tool sets. Existing approaches to improving tool interfaces rely on execution traces, which are frequently unavailable in cold-start or privacy-constrained settings, and typically optimize each tool independently, limiting scalability and generalization to unseen tools. We propose Trace-Free+, a curriculum learning framework that progressively transfers supervision from trace-rich settings to trace-free deployment, encouraging the model to abstract reusable interface-usage patterns and tool usage outcomes. To support this approach, we construct a large-scale dataset of high-quality tool interfaces using a structured workflow over a diverse collection of tools. Experiments on StableToolBench and RestBench show consistent gains on unseen tools, strong cross-domain generalization, and robustness as the number of candidate tools scales to over 100, demonstrating that tool interface optimization is a practical and deployable complement to agent fine-tuning.
- Abstract(参考訳): LLMベースのエージェントのパフォーマンスは、エージェント自身だけでなく、使用するツールインターフェースの品質にも依存する。
以前の作業はエージェントの微調整に重点を置いていたが、自然言語記述やパラメータスキーマを含むツールインターフェースは、主に人間指向であり、特にエージェントが大きな候補ツールセットから選択しなければならない場合、ボトルネックになることが多い。
ツールインターフェースを改善するための既存のアプローチは、コールドスタートやプライバシ制約のある設定では頻繁に利用できない実行トレースに依存しており、通常、各ツールを独立して最適化し、スケーラビリティと一般化を目に見えないツールに制限する。
我々は、トレースリッチな設定からトレースフリーなデプロイメントへの監督を段階的に移行するカリキュラム学習フレームワークであるTrace-Free+を提案し、再利用可能なインターフェース利用パターンとツール使用結果の抽象化をモデルに推奨する。
このアプローチを支援するために,多種多様なツール群にまたがる構造化ワークフローを用いて,高品質なツールインターフェースの大規模データセットを構築した。
StableToolBenchとRestBenchの実験では、候補ツールの数が100を超えるにつれて、目に見えないツール、強力なクロスドメインの一般化、堅牢性が一貫して向上し、ツールインターフェースの最適化がエージェントの微調整の実用的でデプロイ可能な補完であることを実証している。
関連論文リスト
- ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents [16.06309106596998]
ToolTokはGUIエージェントのための多段階パスフィニングの新しいパラダイムである。
我々は,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。
トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの3つのタスクからなる,難易度の高いカリキュラムを構築した。
論文 参考訳(メタデータ) (2026-01-30T08:38:05Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - AutoTool: Efficient Tool Selection for Large Language Model Agents [10.061664247482488]
LLMの推論と意思決定能力を活用することで、複雑なタスクを自動化する強力なツールとして、LLM(Large Language Model)エージェントが登場した。
しかしながら、大きなボトルネックは、ツール選択の推論コストの高さにある。特に、各ステップで使用するツールを決定するために、繰り返しLLMを呼び出すReActのようなアプローチでは。
ツール使用慣性(Tool use inertia)という重要な経験的観測を生かして、繰り返しLLM推論をバイパスするグラフベースの新しいフレームワークであるAutoToolを提案する。
論文 参考訳(メタデータ) (2025-11-18T16:41:48Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - Advancing and Benchmarking Personalized Tool Invocation for LLMs [66.39214525683425]
パーソナライズされたツール呼び出しの概念を導入し、ツールの優先度とプロファイルに依存したクエリという2つの重要なタスクを定義します。
これらの課題に対処するために、パーソナライズされたツール呼び出し用に設計されたデータ合成フレームワークであるPToolを提案する。
パーソナライズされたツール呼び出しを評価するための最初のベンチマークである textbfPTBench を構築した。
論文 参考訳(メタデータ) (2025-05-07T02:25:20Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - PTR: Precision-Driven Tool Recommendation for Large Language Models [43.53494041932615]
大規模言語モデル(LLM)のためのPTR(Precision-driven Tool Recommendation)アプローチを提案する。
PTRは、過去のツールバンドルの利用を利用して、初期的かつ簡潔なツールセットをキャプチャし、ツールマッチングを実行することで、ツールセットを動的に調整する。
LLMのツールレコメンデーションの有効性を評価するために,新しいデータセットRecToolsとメトリクスTRACCを提案する。
論文 参考訳(メタデータ) (2024-11-14T17:33:36Z) - ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。
ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。
ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文 参考訳(メタデータ) (2024-10-04T13:52:32Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。