論文の概要: GOAT: A Training Framework for Goal-Oriented Agent with Tools
- arxiv url: http://arxiv.org/abs/2510.12218v1
- Date: Tue, 14 Oct 2025 07:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.222228
- Title: GOAT: A Training Framework for Goal-Oriented Agent with Tools
- Title(参考訳): GOAT - ツールによる目標指向エージェントのトレーニングフレームワーク
- Authors: Hyunji Min, Sangwon Jung, Junyoung Sung, Dosung Lee, Leekyeung Han, Paul Hongsuck Seo,
- Abstract要約: 大規模言語モデル(LLM)は、インタラクティブエージェントとして機能するために、最近、従来のテキスト生成を超えて拡張されている。
本研究では,人間のアノテーションを含まない環境下でのLDMエージェントの微調整を可能にする新しいトレーニングフレームワークGOATを提案する。
広範な実験により,GOAT学習エージェントは,複数の既存の目標指向ベンチマークにおいて最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 16.5275883251462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently been extended beyond traditional text generation to serve as interactive agents capable of using external tools based on user intent. However, current LLM agents still show limited ability to handle goal-oriented queries, which require decomposing a high-level objective into multiple interdependent API calls with correct planning and execution. Current approaches mainly rely on zero-shot evaluation due to the absence of training data. While proprietary closed-source models such as GPT-4 demonstrate strong reasoning abilities, smaller open-source models struggle to perform complex tool use effectively. Thus, we propose a novel training framework GOAT, which enables fine-tuning of LLM agents in a human annotation-free setting. GOAT automatically constructs synthetic datasets of goal-oriented API execution tasks directly from given API documents, equipping models with the ability to reason over interdependent calls and generate coherent responses. Through extensive experiments, we show that GOAT-trained agents achieve state-of-the-art performance across multiple existing goal-oriented benchmarks. In addition, we introduce GOATBench, a new goal-oriented API execution benchmark, and demonstrate that agents trained with GOAT also excel in this setting. These results highlight GOAT as a practical path toward building robust open-source LLM agents capable of complex reasoning and tool use.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザ意図に基づいて外部ツールを使用することができる対話型エージェントとして機能するために、最近、従来のテキスト生成を超えて拡張されている。
しかしながら、現在のLLMエージェントは、高いレベルの目的を複数の相互依存APIコールに分解し、正確な計画と実行を必要とする、目標指向クエリを処理する能力に制限があることを示している。
現在のアプローチは主に、トレーニングデータがないため、ゼロショット評価に依存している。
GPT-4のようなプロプライエタリなクローズドソースモデルは強力な推論能力を示しているが、より小さなオープンソースモデルは複雑なツールの使用を効果的に行うのに苦労している。
そこで本研究では,人間のアノテーションを含まない環境下でのLDMエージェントの微調整を可能にする,新しいトレーニングフレームワークGOATを提案する。
GOATは,所定のAPIドキュメントから直接,目標指向のAPI実行タスクの合成データセットを自動構築する。
広範な実験により,GOAT学習エージェントは,複数の既存の目標指向ベンチマークにおいて最先端のパフォーマンスを達成することを示す。
さらに、新しいゴール指向API実行ベンチマークであるGOATBenchを導入し、GOATでトレーニングされたエージェントもこの設定で優れていることを示す。
これらの結果から,GOAT は複雑な推論とツール使用が可能なオープンソースの LLM エージェントを構築するための実践的な方法として注目されている。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [33.250579401886206]
本稿では,モデルコンテキストプロトコル(MCP)フレームワークにおいて,LLM(Large Language Models)の性能を評価するために設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MPP-RADARは複数のタスク領域にわたる客観的な定量測定を採用する。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - DataSciBench: An LLM Agent Benchmark for Data Science [33.3811507234528]
DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。
我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。
我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:31:51Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。