論文の概要: Firefly: Illuminating Large-Scale Verified Tool-Call Data Generation from Real APIs
- arxiv url: http://arxiv.org/abs/2605.17558v1
- Date: Sun, 17 May 2026 17:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.378516
- Title: Firefly: Illuminating Large-Scale Verified Tool-Call Data Generation from Real APIs
- Title(参考訳): Firefly: 実APIから大規模検証ツールコールデータを生成する
- Authors: Yuxuan Lu, Ziyi Wang, Yingzhou Lu, Yisi Sang, Jiri Gesi, Xianfeng Tang, Yimeng Zhang, Zhenwei Dai, Hui Liu, Hanqing Lu, Chen Luo, Qi He, Benoit Dumoulin, Jing Huang, Dakuo Wang,
- Abstract要約: 本稿では,実世界のMPPサーバから検証済みのツールコールデータを生成するためのパイプラインFireFlyを紹介する。
実世界のツール空間のスケールを扱うために、ペアワイズツールグラフとサンプルサブDAGを構築します。
このパイプラインを適用すると、240のサーバと93のツールにまたがる5,144の検証タスクが生成される。
- 参考スコア(独自算出の注目度): 46.60041435990374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training tool-calling agents requires large-scale trajectory data with verifiable labels, yet existing approaches either synthesize environments that diverge from real API behavior or generate tasks without ground-truth outcomes for verification. We present FireFly, a pipeline for generating verified tool-call data from real-world MCP servers. Our key insight is to invert the standard synthesis pipeline: rather than generating tasks and hoping they are solvable, we first let a strong LLM explore real APIs along graph-guided DAG structures, then synthesize tasks backward from observed outcomes, guaranteeing label correctness by construction. To handle the scale of real-world tool spaces (${\sim}$1,000 tools), we build a pairwise tool graph and sample sub-DAGs to focus exploration on semantically coherent workflows. To address environment drift in live APIs, we construct a retrieval-augmented simulator that caches all exploration results and replays them during training and evaluation, enabling fully offline and reproducible RL. Applying this pipeline yields 5,144 verified tasks spanning 240 servers and 993 tools. A 4B-parameter model trained with GRPO on FireFly matches Claude Sonnet 4.6 on our held-out test set and shows improvements on multiple tool-calling benchmarks including Tau2-Bench, MCPMark, and MCP-Atlas.
- Abstract(参考訳): トレーニングツール呼び出しエージェントは、検証可能なラベルを持つ大規模なトラジェクトリデータを必要とするが、既存のアプローチでは、実際のAPI動作から逸脱する環境を合成するか、検証のための基礎的な結果なしでタスクを生成する。
本稿では,実世界のMPPサーバから検証済みのツールコールデータを生成するためのパイプラインFireFlyを紹介する。
私たちの重要な洞察は、標準的な合成パイプラインを反転させることです – タスクを生成して、それらが解決可能であることを期待するのではなく、まず、強力なLCMでグラフ誘導DAG構造に沿って実際のAPIを探索し、観測結果からタスクを後方に合成し、構築によるラベルの正しさを保証します。
実世界のツールスペースのスケール($1,000ツール)を扱うために、ペアワイズツールグラフとサブDAGのサンプルを構築し、セマンティックコヒーレントなワークフローを探索する。
ライブAPIにおける環境ドリフトに対処するため,全探索結果をキャッシュし,トレーニングおよび評価中に再生する検索拡張シミュレータを構築し,完全にオフラインかつ再現可能なRLを実現する。
このパイプラインを適用すると、240のサーバと93のツールにまたがる5,144の検証タスクが生成される。
The 4B-parameter model training with GRPO on FireFly match Claude Sonnet 4.6 on our held-out test set and show on multiple tool-calling benchmarks including Tau2-Bench, MCPMark, MCP-Atlas。
関連論文リスト
- EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL [54.09410318521061]
本稿では,エージェント強化学習(Agentic RL)トレーニングのための完全に自動化されたフレームワークであるEnvFactoryを紹介する。
EnvFactoryは、認証リソースから自律的に、ステートフルで実行可能なツール環境を探索する。
トポロジーを意識したサンプリングとキャリブレーションによる自然なマルチターン軌道を合成する。
トレーニング効率とダウンストリーム性能が向上し、BFCLv3ではQwen3シリーズモデルを最大15%改善し、MPP-Atlasでは+8.6%、VitaBenchでは+6%向上した。
論文 参考訳(メタデータ) (2026-05-18T17:37:40Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs [40.70833390513187]
本稿では,強力な実世界のツールコール性能を実現する自動合成フレームワークであるToolForgeを紹介する。
ToolForgeは、マルチホップ検索シナリオ用に設計された大規模ツール学習データを合成する。
実験結果から,合成データを用いてトレーニングした場合,8Bパラメータのみのモデルが複数のベンチマークでGPT-4oを上回っていることがわかった。
論文 参考訳(メタデータ) (2025-12-18T04:06:26Z) - SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文 参考訳(メタデータ) (2025-06-12T17:54:17Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-26T17:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。