論文の概要: How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench
- arxiv url: http://arxiv.org/abs/2508.20931v1
- Date: Thu, 28 Aug 2025 15:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.495811
- Title: How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench
- Title(参考訳): 複雑な動的環境におけるツール使用精度向上のための入力改質法 : $τ$-bench の検討
- Authors: Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral,
- Abstract要約: マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
- 参考スコア(独自算出の注目度): 58.114899897566964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning and planning capabilities of large language models (LLMs) have enabled their potential as autonomous agents capable of tool use in dynamic environments. However, in multi-turn conversational environments like $\tau$-bench, these agents often struggle with consistent reasoning, adherence to domain-specific policies, and extracting correct information over a long horizon of tool-calls and conversation. To capture and mitigate these failures, we conduct a comprehensive manual analysis of the common errors occurring in the conversation trajectories. We then experiment with reformulations of inputs to the tool-calling agent for improvement in agent decision making. Finally, we propose the Input-Reformulation Multi-Agent (IRMA) framework, which automatically reformulates user queries augmented with relevant domain rules and tool suggestions for the tool-calling agent to focus on. The results show that IRMA significantly outperforms ReAct, Function Calling, and Self-Reflection by 16.1%, 12.7%, and 19.1%, respectively, in overall pass^5 scores. These findings highlight the superior reliability and consistency of IRMA compared to other methods in dynamic environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論と計画能力の最近の進歩は、動的環境におけるツール使用が可能な自律エージェントとしての可能性を可能にしている。
しかし、$\tau$-benchのようなマルチターンの会話環境では、これらのエージェントは一貫性のある推論、ドメイン固有のポリシーへの固執、ツールコールと会話の長い視野で正確な情報抽出に苦労することが多い。
これらの障害を捕捉・緩和するために,会話軌跡に発生する一般的な誤りを包括的に手作業で解析する。
次に,エージェント意思決定の改善を目的としたツールコールエージェントへの入力の再構成実験を行った。
最後に,IRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。このフレームワークは,関連するドメインルールを付加したユーザクエリを自動的に再構成し,ツール呼び出しエージェントが注目するツールの提案を行う。
その結果、IRMAは総パス^5スコアにおいて、ReAct、Function Calling、Self-Reflectionの16.1%、12.7%、19.1%を大きく上回った。
これらの結果は、動的環境における他の方法と比較して、IRMAの信頼性と一貫性が優れていることを示している。
関連論文リスト
- $C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking [12.218102495632937]
エージェントの堅牢性を評価するためのオープンソースベンチマークをC3$-Benchで提示する。
具体的には,複雑なツール関係をナビゲートし,重要な隠蔽情報を処理し,動的決定経路を管理する,という3つの課題を設計する。
本質的に$C3$-Benchは、これらの課題を通じてモデル脆弱性を公開し、エージェントパフォーマンスの解釈可能性の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2025-05-24T15:25:44Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback-based Self-Correction [18.383499080327542]
環境フィードバックに基づく自己補正手法ERASERを提案する。
実験の結果、QueryAgentは以前の数ショットメソッドよりも特に優れていた。
このアプローチは、実行時、クエリオーバヘッド、API呼び出しコストなど、効率性の面で優れています。
論文 参考訳(メタデータ) (2024-03-18T15:39:14Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。