論文の概要: FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
- arxiv url: http://arxiv.org/abs/2510.24645v1
- Date: Tue, 28 Oct 2025 17:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.298253
- Title: FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
- Title(参考訳): FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
- Authors: Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, Yang Liu, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Chenyi Zhuang, Jinjie Gu, Leilei Gan, Xiangyu Zhao, Shi Gu,
- Abstract要約: 本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。
FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 39.45732462111156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Function calling (FC) empowers large language models (LLMs) and autonomous agents to interface with external tools, a critical capability for solving complex, real-world problems. As this ability becomes increasingly central to advanced AI systems, the need for high-quality, multi-turn training data to develop and refine it cannot be overstated. Existing data synthesis methods, such as random environment sampling or multi-agent role-playing, are not powerful enough to generate high-quality data in real-world environments. Practical challenges come in three folds: targeted model training, isolation of tool architecture, and multi-turn logical dependency. To address these structural deficiencies, we present FunReason-MT, a novel data synthesis framework for real-world multi-turn tool use. FunReason-MT resolves the complexity barrier in multi-turn FC data by employing 1) Environment-API Graph Interactions to gather varied high-quality trajectories, 2) Advanced Tool-Query Synthesis to simplify hard query construction, and 3) Guided Iterative Chain for sophisticated CoT generation. Evaluations on Berkeley Function-Calling Leaderboard (BFCLv3) demonstrate the power of our framework: a 4B model built upon FunReason-MT generated data achieves state-of-the-art performance among comparable-sized models, outperforming most close-source models. Further performance improvements on BFCLv4 confirm that FunReason-MT provides a reliable and robust source for agentic learning.
- Abstract(参考訳): FC(Function Calling)は、大規模言語モデル(LLM)と自律エージェントが外部ツールと対話できるようにする機能である。
この能力が高度なAIシステムの中心になるにつれて、高品質なマルチターントレーニングデータの開発と洗練の必要性が過大評価されることはない。
ランダム環境サンプリングやマルチエージェントロールプレイングのような既存のデータ合成手法は、現実世界の環境で高品質なデータを生成するには不十分である。
対象とするモデルトレーニング、ツールアーキテクチャの分離、マルチターン論理依存性の3つだ。
このような構造的欠陥に対処するため,FunReason-MTは実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは多ターンFCデータの複雑さ障壁を解く
1) 各種高品質トラジェクトリを収集するための環境APIグラフインタラクション。
2)ハードクエリ構築を簡略化する高度なツールクエリ合成
3)高度なCoT生成のためのガイドイテレーティブチェイン。
FunReason-MTの生成したデータに基づいて構築された4Bモデルは、比較可能なサイズのモデル間で最先端のパフォーマンスを実現し、ほとんどのクローズソースモデルを上回るパフォーマンスを実現します。
BFCLv4のさらなるパフォーマンス改善は、FunReason-MTがエージェント学習の信頼性と堅牢性を提供することを確認した。
関連論文リスト
- TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments [30.078263383249862]
Toucanは、これまでで最大規模のツール・アジェンティックデータセットである。
多様な、現実的で、挑戦的なタスクを、実際のツールの実行を含む軌道で生成します。
論文 参考訳(メタデータ) (2025-10-01T17:58:03Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data [0.0]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - Large-Scale Diverse Synthesis for Mid-Training [15.81154701009597]
BoostQAは100Bの大規模質問回答データセットである。
本稿では,BoostQAを合成するための新しい多様化パイプラインを提案する。
提案手法は,Llama-3 8Bを40Bトーケンデータセットで中級訓練し,MMLUとCMMLUで平均$mathbf12.74%の改善を実現する。
論文 参考訳(メタデータ) (2025-08-02T11:37:16Z) - Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models [92.19059398963647]
Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計された汎用的で統一的で使いやすいフレームワークである。
RFT-coreは、同期/非同期、オンライン/オフライン、RTTのオンライン/オフラインモードを統一・一般化する。
論文 参考訳(メタデータ) (2025-05-23T12:41:09Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。