論文の概要: From Failure to Mastery: Generating Hard Samples for Tool-use Agents
- arxiv url: http://arxiv.org/abs/2601.01498v1
- Date: Sun, 04 Jan 2026 11:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.448173
- Title: From Failure to Mastery: Generating Hard Samples for Tool-use Agents
- Title(参考訳): 失敗から熟達へ - ツール使用エージェントのためのハードサンプルの生成
- Authors: Bingguang Hao, Zengzhuang Xu, Yuntao Wen, Xinyi Xu, Yang Liu, Tong Zhao, Maolin Wang, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Xiangyu Zhao, Chenyi Zhuang, Ji Zhang,
- Abstract要約: HardGenは、検証可能な推論を備えたハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインである。
高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
- 参考スコア(独自算出の注目度): 40.331752086107265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of LLM agents with tool-use capabilities requires diverse and complex training corpora. Existing data generation methods, which predominantly follow a paradigm of random sampling and shallow generation, often yield simple and homogeneous trajectories that fail to capture complex, implicit logical dependencies. To bridge this gap, we introduce HardGen, an automatic agentic pipeline designed to generate hard tool-use training samples with verifiable reasoning. Firstly, HardGen establishes a dynamic API Graph built upon agent failure cases, from which it samples to synthesize hard traces. Secondly, these traces serve as conditional priors to guide the instantiation of modular, abstract advanced tools, which are subsequently leveraged to formulate hard queries. Finally, the advanced tools and hard queries enable the generation of verifiable complex Chain-of-Thought (CoT), with a closed-loop evaluation feedback steering the continuous refinement of the process. Extensive evaluations demonstrate that a 4B parameter model trained with our curated dataset achieves superior performance compared to several leading open-source and closed-source competitors (e.g., GPT-5.2, Gemini-3-Pro and Claude-Opus-4.5). Our code, models, and dataset will be open-sourced to facilitate future research.
- Abstract(参考訳): ツール使用能力を有するLLMエージェントの進歩には、多種多様な複雑なトレーニングコーパスが必要である。
既存のデータ生成手法は、主にランダムサンプリングと浅い生成のパラダイムに従っており、複雑で暗黙的な論理的依存関係を捕捉できない単純で均質な軌道を生成することが多い。
このギャップを埋めるために、検証可能な推論を伴うハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインであるHardGenを紹介します。
第一に、HardGenはエージェント障害ケースの上に構築された動的APIグラフを確立し、ハードトレースをサンプリングして合成する。
第二に、これらのトレースは、モジュール的で抽象的な高度なツールのインスタンス化を誘導する条件付き先行として機能し、その後、ハードクエリの定式化に活用される。
最後に、高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる。
大規模な評価では、我々のキュレートデータセットでトレーニングされた4Bパラメータモデルは、主要なオープンソースおよびクローズドソースの競合(例えば、GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5)と比較して、優れたパフォーマンスを実現している。
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
関連論文リスト
- LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls [46.34510189812439]
LoopToolは、完全に自動化され、モデル対応のデータ進化フレームワークである。
3つの相乗的モジュールを通して、データとモデルを反復的に洗練する。
実験によると、LoopToolでトレーニングした8Bモデルは、32Bデータジェネレータを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-12T09:34:39Z) - Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients" [53.7887350405379]
以前の作業では、まずユーザクエリを生成し、続いてDFSのような複雑なツール使用アノテーションを使用して、ツール使用のLLMデータセットを合成する。
ToolGradはこのパラダイムを逆転させるエージェントフレームワークであるToolGradを紹介します。
このアプローチは、より複雑なツールの使用、低コスト、100%パスレートで生成されたデータセットであるToolGrad-5kにつながった。
論文 参考訳(メタデータ) (2025-08-06T05:04:00Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。