論文の概要: ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset
- arxiv url: http://arxiv.org/abs/2511.15718v1
- Date: Wed, 12 Nov 2025 13:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.280237
- Title: ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset
- Title(参考訳): ToolMind Technical Report: 大規模で推論の強化されたツール使用データセット
- Authors: Chen Yang, Ran Le, Yun Xing, Zhenwei An, Zongchao Chen, Wayne Xin Zhao, Yang Song, Tao Zhang,
- Abstract要約: 我々は,160kの合成データインスタンスを備えた高品質なツールエージェントデータセットであるToolMindを紹介した。
我々は, 高精度なターンレベルのフィルタリングを用いて, 誤りや不適切なステップを除去する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 43.45582911794623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents have developed rapidly in recent years to solve complex real-world problems using external tools. However, the scarcity of high-quality trajectories still hinders the development of stronger LLM agents. Most existing works on multi-turn dialogue synthesis validate correctness only at the trajectory level, which may overlook turn-level errors that can propagate during training and degrade model performance. To address these limitations, we introduce ToolMind, a large-scale, high-quality tool-agentic dataset with 160k synthetic data instances generated using over 20k tools and 200k augmented open-source data instances. Our data synthesis pipeline first constructs a function graph based on parameter correlations and then uses a multi-agent framework to simulate realistic user-assistant-tool interactions. Beyond trajectory-level validation, we employ fine-grained turn-level filtering to remove erroneous or suboptimal steps, ensuring that only high-quality reasoning traces are retained. This approach mitigates error amplification during training while preserving self-corrective reasoning signals essential for robust tool-use learning. Models fine-tuned on ToolMind show significant improvements over baselines on several benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、近年、外部ツールを使用して複雑な現実世界の問題を解決するために急速に発達している。
しかし、高品質な軌道の不足は、依然として強力なLSM剤の開発を妨げる。
既存のマルチターンダイアログ合成の研究の多くは、軌道レベルでのみ正確性を検証しており、トレーニング中に伝播し、モデル性能が劣化するターンレベルの誤差を見逃す可能性がある。
これらの制限に対処するために、20k以上のツールと200k以上の拡張オープンソースデータインスタンスを使用して生成された160kの合成データインスタンスを備えた、大規模で高品質なツール関連データセットであるToolMindを紹介した。
我々のデータ合成パイプラインは、まずパラメータ相関に基づいて関数グラフを構築し、次に、マルチエージェントフレームワークを使用して現実的なユーザ-アシスタント-ツールインタラクションをシミュレートする。
軌道レベルの検証以外にも,高精度なターンレベルのフィルタリングを用いて,誤りや最適でないステップを除去し,高品質な推論トレースのみを確実に保持する。
このアプローチは、堅牢なツール・ユース・ラーニングに必要な自己修正的推論信号を保持しながら、トレーニング中のエラー増幅を緩和する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning [25.605096023894834]
大規模言語モデル (LLM) は数学的推論において顕著な進歩を遂げた。
最近の進歩にもかかわらず、既存の手法は3つの重要な課題に直面している。
我々はこれらの制限を克服するためにTHOR(Tool-Integrated Hierarchical Optimization via RL)を提案する。
提案手法は多種多様なモデルに対して強い一般化を示し,推論モデルと非推論モデルの両方で効果的に機能する。
論文 参考訳(メタデータ) (2025-09-17T07:16:12Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。