論文の概要: Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall
- arxiv url: http://arxiv.org/abs/2508.15214v1
- Date: Thu, 21 Aug 2025 03:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.171652
- Title: Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall
- Title(参考訳): ステップワイズ・エクスペリエンス・リコールによる大規模言語モデルの自己誘導関数呼び出し
- Authors: Sijia Cui, Aiyao He, Shuai Xu, Hongming Zhang, Yanna Wang, Qingyang Zhang, Yajing Wang, Bo Xu,
- Abstract要約: 本稿では,継続的に更新された体験プールから,よりきめ細かなステップワイズ検索を行うステップワイド体験リコール(SEER)を提案する。
ToolQAベンチマークで評価すると、SEERは難しい質問では6.1%、難しい質問では4.7%の平均的な改善を達成している。
Qwen2.5-7BとQwen2.5-72Bのモデルにより、SEERはそれぞれ7.44%と23.38%の精度向上を示した。
- 参考スコア(独自算出の注目度): 26.90432440741984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Function calling enables large language models (LLMs) to interact with external systems by leveraging tools and APIs. When faced with multi-step tool usage, LLMs still struggle with tool selection, parameter generation, and tool-chain planning. Existing methods typically rely on manually designing task-specific demonstrations, or retrieving from a curated library. These approaches demand substantial expert effort and prompt engineering becomes increasingly complex and inefficient as tool diversity and task difficulty scale. To address these challenges, we propose a self-guided method, Stepwise Experience Recall (SEER), which performs fine-grained, stepwise retrieval from a continually updated experience pool. Instead of relying on static or manually curated library, SEER incrementally augments the experience pool with past successful trajectories, enabling continuous expansion of the pool and improved model performance over time. Evaluated on the ToolQA benchmark, SEER achieves an average improvement of 6.1\% on easy and 4.7\% on hard questions. We further test SEER on $\tau$-bench, which includes two real-world domains. Powered by Qwen2.5-7B and Qwen2.5-72B models, SEER demonstrates substantial accuracy gains of 7.44\% and 23.38\%, respectively.
- Abstract(参考訳): 関数呼び出しにより、ツールやAPIを活用することで、大きな言語モデル(LLM)が外部システムと対話できる。
マルチステップツールの使用に直面した場合、LLMは依然としてツールの選択、パラメータ生成、ツールチェーン計画に苦慮している。
既存のメソッドは通常、手動でタスク固有のデモを設計するか、キュレートされたライブラリから検索する。
これらのアプローチは専門的な努力を必要とし、ツールの多様性とタスクの難易度がスケールするにつれて、エンジニアリングはますます複雑で非効率になる。
これらの課題に対処するため, 継続的に更新される体験プールから, きめ細かなステップワイズ検索を行う自己誘導方式, ステップワイズ・エクスペリエンス・リコール(SEER)を提案する。
静的あるいは手動でキュレートされたライブラリに頼る代わりに、SEERは過去の成功した軌道で体験プールを漸進的に拡張し、連続的な拡張を可能にし、時間とともにモデルパフォーマンスを改善した。
ToolQAベンチマークで評価すると、SEERは難しい質問では6.1\%、難しい質問では4.7\%の平均的な改善を達成している。
さらに2つの現実世界ドメインを含む$\tau$-benchでSEERをテストする。
Qwen2.5-7B と Qwen2.5-72B のモデルにより、SEER はそれぞれ 7.44 % と 23.38 % の精度向上を示した。
関連論文リスト
- Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Divide-Then-Aggregate: An Efficient Tool Learning Method via Parallel Tool Invocation [36.29566268457534]
本稿では,新しい並列ツール呼び出しパラダイムDTA-Llamaを紹介する。
まず,従来の木に基づくツールサーチパスをDAG構造に変換する。
DTA-Llamaはデータセット上でトレーニングされ、現在のタスクを複数の並列ツール呼び出しサブタスクに反復的に分割する方法を学ぶ。
論文 参考訳(メタデータ) (2025-01-21T16:49:08Z) - StepTool: Enhancing Multi-Step Tool Usage in LLMs via Step-Grained Reinforcement Learning [44.99757728192871]
大きな言語モデル(LLM)は、複雑なタスクを解決するために外部ツールを効果的に活用するのに苦労する。
動的意思決定プロセスとしてモデリングツール学習を提案する。
StepToolは,段階的な強化学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-10T09:23:26Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。