論文の概要: Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent
- arxiv url: http://arxiv.org/abs/2603.05578v1
- Date: Thu, 05 Mar 2026 17:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.290203
- Title: Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent
- Title(参考訳): Tool-Genesis: セルフ進化型言語エージェントのためのタスク駆動ツール作成ベンチマーク
- Authors: Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping Luo,
- Abstract要約: Tool-Genesisは、複数の次元にわたるエージェント能力の定量化のために設計された診断ベンチマークである。
最先端モデルでさえ、ワンショット設定で正確なツールインターフェースや実行可能なロジックを生成するのに苦労しています。
- 参考スコア(独自算出の注目度): 45.450766613995135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on self-evolving language agents has accelerated, drawing increasing attention to their ability to create, adapt, and maintain tools from task requirements. However, existing benchmarks predominantly rely on predefined specifications, which limits scalability and hinders truly autonomous evolution. While recent studies attempt to dynamically generate tools, they primarily emphasize downstream performance, resulting in a "black-box" evaluation that makes it difficult to attribute failures to specific causes. To address this, we propose Tool-Genesis, a diagnostic benchmark designed to quantify agent capabilities across multiple dimensions, including interface compliance, functional correctness, and downstream utility. Tool-Genesis evaluates whether agents can construct task-relevant tools solely from abstract requirements (without preset specifications) and use them to solve realistic problems. Crucially, we find that even state-of-the-art models struggle to produce precise tool interfaces or executable logic in a one-shot setting. These minor initial flaws are amplified through the pipeline, leading to a sharp degradation in downstream metrics. We hope Tool-Genesis will guide future research toward training and steering models to synthesize persistent, general-purpose tools that better address real-world challenges.
- Abstract(参考訳): 自己進化型言語エージェントの研究が加速し、タスク要求からツールを作成し、適応し、維持する能力に注目が集まるようになった。
しかし、既存のベンチマークは主に事前定義された仕様に依存しており、スケーラビリティを制限し、真に自律的な進化を妨げる。
近年の研究は、ツールを動的に生成しようと試みているが、主に下流のパフォーマンスを強調しており、結果として、特定の原因による障害の属性付けが困難になる"ブラックボックス"評価につながっている。
この問題を解決するために,インタフェースコンプライアンス,機能的正当性,下流ユーティリティなど,複数の次元にわたるエージェント能力の定量化を目的とした診断ベンチマークであるTool-Genesisを提案する。
Tool-Genesisは、エージェントが(事前設定された仕様なしで)抽象的な要件からのみタスク関連ツールを構築し、現実的な問題を解決するためにそれらを使用することができるかどうかを評価する。
重要なことに、最先端のモデルでさえ、ワンショット設定で正確なツールインターフェースや実行可能なロジックを生成するのに苦労している。
これらの小さな初期欠陥はパイプラインを通じて増幅され、下流のメトリクスが大幅に低下する。
Tool-Genesisは、トレーニングとステアリングモデルに向けた将来の研究をガイドして、現実世界の課題にもっとうまく対処するための、永続的で汎用的なツールを合成したいと思っています。
関連論文リスト
- ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文 参考訳(メタデータ) (2026-02-24T09:23:12Z) - Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。