論文の概要: Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents
- arxiv url: http://arxiv.org/abs/2601.20144v1
- Date: Wed, 28 Jan 2026 00:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.707365
- Title: Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents
- Title(参考訳): Trajectory2Task: 複雑なユーザインテントのための合成検証可能なデータによるロバストなツールカートリングエージェントのトレーニング
- Authors: Ziyi Wang, Yuxuan Lu, Yimeng Zhang, Jing Huang, Jiri Gesi, Xianfeng Tang, Chen Luo, Yisi Sang, Hanqing Lu, Manling Li, Dakuo Wang,
- Abstract要約: Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
- 参考スコア(独自算出の注目度): 53.711408525717104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tool-calling agents are increasingly deployed in real-world customer-facing workflows. Yet most studies on tool-calling agents focus on idealized settings with general, fixed, and well-specified tasks. In real-world applications, user requests are often (1) ambiguous, (2) changing over time, or (3) infeasible due to policy constraints, and training and evaluation data that cover these diverse, complex interaction patterns remain under-represented. To bridge the gap, we present Trajectory2Task, a verifiable data generation pipeline for studying tool use at scale under three realistic user scenarios: ambiguous intent, changing intent, and infeasible intents. The pipeline first conducts multi-turn exploration to produce valid tool-call trajectories. It then converts these trajectories into user-facing tasks with controlled intent adaptations. This process yields verifiable task that support closed-loop evaluation and training. We benchmark seven state-of-the-art LLMs on the generated complex user scenario tasks and observe frequent failures. Finally, using successful trajectories obtained from task rollouts, we fine-tune lightweight LLMs and find consistent improvements across all three conditions, along with better generalization to unseen tool-use domains, indicating stronger general tool-calling ability.
- Abstract(参考訳): ツール呼び出しエージェントは、現実の顧客向けワークフローにますますデプロイされる。
しかし、ツールコールエージェントに関するほとんどの研究は、一般的な、固定された、そして明確に定義されたタスクによる理想的な設定に焦点を当てている。
現実世界のアプリケーションでは、ユーザ要求は(1)あいまい、(2)時間とともに変化する、(3)ポリシーの制約により実現不可能、そして、これらの多様な複雑な相互作用パターンをカバーするトレーニングと評価データが、まだ不足している。
ギャップを埋めるために、私たちはTrajectory2Taskを紹介します。Trajectory2Taskは、3つの現実的なユーザシナリオ(曖昧な意図、変更の意図、実現不可能な意図)の下で、ツールの使用を大規模に研究するための検証可能なデータ生成パイプラインです。
パイプラインはまず、有効なツールコールトラジェクトリを生成するために、マルチターン探索を行う。
そして、これらのトラジェクトリを、制御された意図適応を伴うユーザ向けタスクに変換する。
このプロセスは、クローズドループの評価とトレーニングをサポートする検証可能なタスクをもたらす。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
最後に,タスクロールアウトから得られた軌道を用いて,軽量LCMを微調整し,これら3つの条件に一貫した改善点を見出した。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。