論文の概要: ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs
- arxiv url: http://arxiv.org/abs/2512.16149v1
- Date: Thu, 18 Dec 2025 04:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.909255
- Title: ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs
- Title(参考訳): ToolForge: 実世界のAPIを必要としないマルチホップ検索のためのデータ合成パイプライン
- Authors: Hao Chen, Zhexin Hu, Jiajun Chai, Haocheng Yang, Hang He, Xiaohan Wang, Wei Lin, Luhang Wang, Guojun Yin, Zhuofeng zhao,
- Abstract要約: 本稿では,強力な実世界のツールコール性能を実現する自動合成フレームワークであるToolForgeを紹介する。
ToolForgeは、マルチホップ検索シナリオ用に設計された大規模ツール学習データを合成する。
実験結果から,合成データを用いてトレーニングした場合,8Bパラメータのみのモデルが複数のベンチマークでGPT-4oを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 40.70833390513187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training LLMs to invoke tools and leverage retrieved information necessitates high-quality, diverse data. However, existing pipelines for synthetic data generation often rely on tens of thousands of real API calls to enhance generalization, incurring prohibitive costs while lacking multi-hop reasoning and self-reflection. To address these limitations, we introduce ToolForge, an automated synthesis framework that achieves strong real-world tool-calling performance by constructing only a small number of virtual tools, eliminating the need for real API calls. ToolForge leverages a (question, golden context, answer) triple to synthesize large-scale tool-learning data specifically designed for multi-hop search scenarios, further enriching the generated data through multi-hop reasoning and self-reflection mechanisms. To ensure data fidelity, we employ a Multi-Layer Validation Framework that integrates both rule-based and model-based assessments. Empirical results show that a model with only 8B parameters, when trained on our synthesized data, outperforms GPT-4o on multiple benchmarks. Our code and dataset are publicly available at https://github.com/Buycar-arb/ToolForge .
- Abstract(参考訳): ツールを実行し、取得した情報を活用するためのLLMのトレーニングは、高品質で多様なデータを必要とする。
しかし、合成データ生成のための既存のパイプラインは、一般化を促進するために数万の実際のAPIコールに依存しており、マルチホップ推論と自己回帰が欠如している。
これらの制限に対処するために、ToolForgeを紹介します。これは、少数の仮想ツールを構築して、実際のAPI呼び出しを不要にすることで、強力な現実世界のツール呼び出し性能を実現する自動合成フレームワークです。
ToolForgeは(クエスト、ゴールデンコンテキスト、回答)トリプルを利用して、マルチホップ検索シナリオ用に設計された大規模なツール学習データを合成し、マルチホップ推論と自己回帰機構を通じて生成されたデータをさらに強化する。
データ忠実性を確保するために、ルールベースとモデルベースのアセスメントを統合したMulti-Layer Validation Frameworkを使用します。
実験結果から,合成データを用いてトレーニングした場合,8Bパラメータのみのモデルが複数のベンチマークでGPT-4oを上回っていることがわかった。
私たちのコードとデータセットはhttps://github.com/Buycar-arb/ToolForgeで公開されています。
関連論文リスト
- Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky [0.5735035463793009]
大規模言語モデル(LLM)はますますエンタープライズAPIの呼び出しを担っているが、ほぼ重複したツールが同じユーザ意図で動作しようとすると、日常的にフェールする。
人格駆動の多ターン対話を合成する,曖昧性中心の3段階パイプラインであるDiaFORGEを紹介する。
DiaBENCHのベンチマークでは、DiaFORGEでトレーニングしたモデルは、GPT-4oで27pp、Claude-3.5-Sonnetで49pp、それぞれ最適化されたプロンプトで成功した。
論文 参考訳(メタデータ) (2025-07-04T06:49:02Z) - ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。