論文の概要: StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs
- arxiv url: http://arxiv.org/abs/2503.20527v1
- Date: Wed, 26 Mar 2025 13:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:13.916914
- Title: StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs
- Title(参考訳): StableToolBench-MirrorAPI: 7,000以上の実世界のAPIのミラーとしてのツール環境のモデリング
- Authors: Zhicheng Guo, Sijie Cheng, Yuchen Niu, Hao Wang, Sicheng Zhou, Wenbing Huang, Yang Liu,
- Abstract要約: MirrorAPIは、実際のAPIレスポンスを正確にシミュレートするために、特殊なLLMをトレーニングするフレームワークである。
我々は,シミュレーションの忠実度を高めるために,教師付き微調整と連鎖推論を用いる。
MirrorAPIは最先端の手法に比べて精度と安定性が優れている。
- 参考スコア(独自算出の注目度): 25.600516752905964
- License:
- Abstract: The rapid advancement of large language models (LLMs) has spurred significant interest in tool learning, where LLMs are augmented with external tools to tackle complex tasks. However, existing tool environments face challenges in balancing stability, scalability, and realness, particularly for benchmarking purposes. To address this problem, we propose MirrorAPI, a novel framework that trains specialized LLMs to accurately simulate real API responses, effectively acting as "mirrors" to tool environments. Using a comprehensive dataset of request-response pairs from 7,000+ APIs, we employ supervised fine-tuning and chain-of-thought reasoning to enhance simulation fidelity. MirrorAPI achieves superior accuracy and stability compared to state-of-the-art methods, as demonstrated by its performance on the newly constructed MirrorAPI-Bench and its integration into StableToolBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、LLMが複雑なタスクに取り組むために外部ツールで拡張されているツール学習に大きな関心を惹き付けている。
しかしながら、既存のツール環境は、特にベンチマークの目的で、安定性、スケーラビリティ、現実性のバランスをとる上で、課題に直面しています。
この問題に対処するため,我々は,LLMを訓練して実際のAPI応答を正確にシミュレートする新しいフレームワークであるMirrorAPIを提案し,ツール環境に対する"ミラー"として効果的に機能する。
7000以上のAPIからの要求応答対の包括的なデータセットを用いて、シミュレーション忠実度を高めるために、教師付き微調整と連鎖推論を採用する。
MirrorAPIは、新しく構築されたMirrorAPI-Benchのパフォーマンスと、StableToolBenchへの統合によって示されているように、最先端の方法よりも精度と安定性が向上する。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。
既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。
ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文 参考訳(メタデータ) (2024-10-09T07:14:45Z) - ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。
ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。
オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文 参考訳(メタデータ) (2024-08-08T05:45:42Z) - StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.88844320554284]
ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。
仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。
安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:57:40Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。