論文の概要: Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text
- arxiv url: http://arxiv.org/abs/2601.10355v1
- Date: Thu, 15 Jan 2026 12:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.137037
- Title: Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text
- Title(参考訳): アンロックインシシシット体験:テキストからのツール利用トラジェクトリの合成
- Authors: Zhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang,
- Abstract要約: 本稿では,テキストコーパスから多ターンツール利用トラジェクトリの生成と抽出を可能にするデータ合成パイプラインであるGEMを紹介する。
計算コストを削減するため,教師付き微調整により特別なトラジェクトリ合成器を訓練する。
GEM-32BはBFCL V3 Multi-turnベンチマークで16.5%改善した。
- 参考スコア(独自算出の注目度): 48.25052564552558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.
- Abstract(参考訳): マルチターンインタラクションにおいて,ツールを効果的に活用するための大規模言語モデル(LLM)の導入は,有能な自律エージェントの構築に不可欠である。
しかし、多様で現実的なマルチターンツール使用データを取得することは、依然として大きな課題である。
本研究では,新しいテキストベースパラダイムを提案する。
テキストコーパスには自然にリッチでマルチステップの問題解決体験が含まれており、マルチターンツール利用タスクのための、未使用でスケーラブルで認証されたデータソースとして機能する。
この知見に基づいて,テキストコーパスからの多ターンツール利用トラジェクトリの生成と抽出を可能にするデータ合成パイプラインであるGEMを紹介した。
計算コストを削減するため,教師付き微調整により特別なトラジェクトリ合成器を訓練する。
このモデルは、複雑な生成パイプラインを効率よくエンドツーエンドの軌道生成器に蒸留する。
GEM-32BはBFCL V3 Multi-turnベンチマークで16.5%改善した。
我々のモデルは, τ-ベンチ(Airline and Retail)のドメインデータに基づいてトレーニングしたモデルの性能を部分的に上回り, テキストベース合成パラダイムから導出した優れた一般化能力を強調した。
特に、Trajectory Synthesizerは完全なパイプラインの品質と一致し、推論のレイテンシとコストを大幅に削減します。
関連論文リスト
- Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing [16.839489120513505]
InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。
InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
論文 参考訳(メタデータ) (2025-12-29T17:12:39Z) - FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling [39.45732462111156]
本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。
FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T17:15:26Z) - Procedural Environment Generation for Tool-Use Agents [55.10427063893754]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。
我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文 参考訳(メタデータ) (2025-05-21T14:10:06Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [68.00304954972232]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。