論文の概要: From Failure to Mastery: Generating Hard Samples for Tool-use Agents
- arxiv url: http://arxiv.org/abs/2601.01498v1
- Date: Sun, 04 Jan 2026 11:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.448173
- Title: From Failure to Mastery: Generating Hard Samples for Tool-use Agents
- Title(参考訳): 失敗から熟達へ - ツール使用エージェントのためのハードサンプルの生成
- Authors: Bingguang Hao, Zengzhuang Xu, Yuntao Wen, Xinyi Xu, Yang Liu, Tong Zhao, Maolin Wang, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Xiangyu Zhao, Chenyi Zhuang, Ji Zhang,
- Abstract要約: HardGenは、検証可能な推論を備えたハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインである。
高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
- 参考スコア(独自算出の注目度): 40.331752086107265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of LLM agents with tool-use capabilities requires diverse and complex training corpora. Existing data generation methods, which predominantly follow a paradigm of random sampling and shallow generation, often yield simple and homogeneous trajectories that fail to capture complex, implicit logical dependencies. To bridge this gap, we introduce HardGen, an automatic agentic pipeline designed to generate hard tool-use training samples with verifiable reasoning. Firstly, HardGen establishes a dynamic API Graph built upon agent failure cases, from which it samples to synthesize hard traces. Secondly, these traces serve as conditional priors to guide the instantiation of modular, abstract advanced tools, which are subsequently leveraged to formulate hard queries. Finally, the advanced tools and hard queries enable the generation of verifiable complex Chain-of-Thought (CoT), with a closed-loop evaluation feedback steering the continuous refinement of the process. Extensive evaluations demonstrate that a 4B parameter model trained with our curated dataset achieves superior performance compared to several leading open-source and closed-source competitors (e.g., GPT-5.2, Gemini-3-Pro and Claude-Opus-4.5). Our code, models, and dataset will be open-sourced to facilitate future research.
- Abstract(参考訳): ツール使用能力を有するLLMエージェントの進歩には、多種多様な複雑なトレーニングコーパスが必要である。
既存のデータ生成手法は、主にランダムサンプリングと浅い生成のパラダイムに従っており、複雑で暗黙的な論理的依存関係を捕捉できない単純で均質な軌道を生成することが多い。
このギャップを埋めるために、検証可能な推論を伴うハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインであるHardGenを紹介します。
第一に、HardGenはエージェント障害ケースの上に構築された動的APIグラフを確立し、ハードトレースをサンプリングして合成する。
第二に、これらのトレースは、モジュール的で抽象的な高度なツールのインスタンス化を誘導する条件付き先行として機能し、その後、ハードクエリの定式化に活用される。
最後に、高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる。
大規模な評価では、我々のキュレートデータセットでトレーニングされた4Bパラメータモデルは、主要なオープンソースおよびクローズドソースの競合(例えば、GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5)と比較して、優れたパフォーマンスを実現している。
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
関連論文リスト
- From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls [46.34510189812439]
LoopToolは、完全に自動化され、モデル対応のデータ進化フレームワークである。
3つの相乗的モジュールを通して、データとモデルを反復的に洗練する。
実験によると、LoopToolでトレーニングした8Bモデルは、32Bデータジェネレータを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-12T09:34:39Z) - Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients" [53.7887350405379]
以前の作業では、まずユーザクエリを生成し、続いてDFSのような複雑なツール使用アノテーションを使用して、ツール使用のLLMデータセットを合成する。
ToolGradはこのパラダイムを逆転させるエージェントフレームワークであるToolGradを紹介します。
このアプローチは、より複雑なツールの使用、低コスト、100%パスレートで生成されたデータセットであるToolGrad-5kにつながった。
論文 参考訳(メタデータ) (2025-08-06T05:04:00Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。