論文の概要: UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.11557v1
- Date: Mon, 13 Apr 2026 14:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.621004
- Title: UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
- Title(参考訳): UniToolCall:LLMエージェントのツール利用表現、データ、評価
- Authors: Yijuan Liang, Xinghao Chen, Yifan Ge, Ziyi Wu, Hao Wu, Changyu Zeng, Wei Xing, Xiaoyu Shen,
- Abstract要約: 構築とデータセット生成から評価に至るまで,パイプライン全体を標準化するツール学習用統合フレームワークであるUniToolCallを提案する。
我々は、7つの公開ベンチマークを、関数呼び出し、ターン、会話のレベルできめ細かい評価を施した、クエリ-Action--Observation-Answer (QAOA) 表現に変換する。
Anchoror-Heavy Hybrid-20では、1ターンのStrict Precisionを93.0%達成し、GPT、Gemini、Claudeといった商用モデルを上回っている。
- 参考スコア(独自算出の注目度): 22.52508596251479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function calls. However, existing research exhibits inconsistent interaction representations, largely overlooks the structural distribution of tool-use trajectories, and relies on incompatible evaluation benchmarks. We present UniToolCall, a unified framework for tool learning that standardizes the entire pipeline from toolset construction and dataset generation to evaluation. The framework curates a large tool pool of 22k+ tools and constructs a hybrid training corpus of 390k+ instances by combining 10 standardized public datasets with structurally controlled synthetic trajectories. It explicitly models diverse interaction patterns, including single-hop vs. multi-hop and single-turn vs. multi-turn, while capturing both serial and parallel execution structures. To support coherent multi-turn reasoning, we further introduce an Anchor Linkage mechanism that enforces cross-turn dependencies. Furthermore, we convert 7 public benchmarks into a unified Query--Action--Observation--Answer (QAOA) representation with fine-grained evaluation at the function-call, turn, and conversation levels. Experiments show that fine-tuning Qwen3-8B on our dataset substantially improves tool-use performance. Under the distractor-heavy Hybrid-20 setting, achieves 93.0% single-turn Strict Precision, outperforming commercial models including GPT, Gemini, and Claude.
- Abstract(参考訳): ツールユース機能はLLMエージェントの基本コンポーネントであり、構造化関数呼び出しを通じて外部システムとの対話を可能にする。
しかし、既存の研究は一貫性のない相互作用表現を示し、ツール利用軌跡の構造的分布を概ね見落とし、不整合評価ベンチマークに依存している。
ツールセット構築からデータセット生成から評価に至るまで,パイプライン全体を標準化するツール学習用統合フレームワークであるUniToolCallを提案する。
このフレームワークは、22k以上のツールの大きなツールプールをキュレートし、10の標準化されたパブリックデータセットと構造制御された合成軌跡を組み合わせることで、390k以上のインスタンスのハイブリッドトレーニングコーパスを構築する。
シングルホップ対マルチホップ、シングルターン対マルチターンを含む多様なインタラクションパターンを明示的にモデル化し、シリアルと並列の両方の実行構造をキャプチャする。
さらに,コヒーレントなマルチターン推論をサポートするために,クロスターン依存関係を強制するアンカーリンク機構を導入する。
さらに、7つの公開ベンチマークを、関数呼び出し、ターン、会話のレベルできめ細かい評価を施したクエリー--Action--Observation-Answer(QAOA)表現に変換する。
実験により、データセット上の微調整Qwen3-8Bは、ツール使用性能を大幅に向上することが示された。
GPT、Gemini、Claudeといった商用モデルを上回る93.0%のシングルターンストリット精度を実現している。
関連論文リスト
- VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining [49.78591189918702]
VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
論文 参考訳(メタデータ) (2026-03-16T09:31:44Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing [16.839489120513505]
InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。
InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
論文 参考訳(メタデータ) (2025-12-29T17:12:39Z) - ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs [40.70833390513187]
本稿では,強力な実世界のツールコール性能を実現する自動合成フレームワークであるToolForgeを紹介する。
ToolForgeは、マルチホップ検索シナリオ用に設計された大規模ツール学習データを合成する。
実験結果から,合成データを用いてトレーニングした場合,8Bパラメータのみのモデルが複数のベンチマークでGPT-4oを上回っていることがわかった。
論文 参考訳(メタデータ) (2025-12-18T04:06:26Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.788417605537965]
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:06:16Z) - Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation [85.68881632498909]
本稿では,大規模言語モデルエージェントのための高品質なトレーニングトラジェクトリを合成するための原則的フレームワークを提案する。
このフレームワークは、関数シグネチャパスからクエリのシーケンスと実行可能な関数呼び出しへの自動的で反復的な変換に基づいている。
実験の結果,14BモデルであるMagnetic-14B-mDPOでは,BFCL-v3では68.01,ToolQueryでは73.30が得られた。
論文 参考訳(メタデータ) (2025-03-10T20:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。