Fugu-MT 論文翻訳(概要): Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

論文の概要: Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

arxiv url: http://arxiv.org/abs/2504.21561v3
Date: Tue, 20 May 2025 09:22:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 19:22:16.857559
Title: Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning
Title（参考訳）: ステップワイズ選好チューニングによるマルチモーダルエージェントの反復的ツール利用探索
Authors: Pengxiang Li, Zhi Gao, Bofei Zhang, Yapeng Mi, Xiaojian Ma, Chenrui Shi, Tao Yuan, Yuwei Wu, Yunde Jia, Song-Chun Zhu, Qing Li,
Abstract要約: コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。 Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
参考スコア（独自算出の注目度）: 69.32855772335624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal agents, which integrate a controller e.g., a vision language model) with external tools, have demonstrated remarkable capabilities in tackling complex multimodal tasks. Existing approaches for training these agents, both supervised fine-tuning and reinforcement learning, depend on extensive human-annotated task-answer pairs and tool trajectories. However, for complex multimodal tasks, such annotations are prohibitively expensive or impractical to obtain. In this paper, we propose an iterative tool usage exploration method for multimodal agents without any pre-collected data, namely SPORT, via step-wise preference optimization to refine the trajectories of tool usage. Our method enables multimodal agents to autonomously discover effective tool usage strategies through self-exploration and optimization, eliminating the bottleneck of human annotation. SPORT has four iterative components: task synthesis, step sampling, step verification, and preference tuning. We first synthesize multimodal tasks using language models. Then, we introduce a novel trajectory exploration scheme, where step sampling and step verification are executed alternately to solve synthesized tasks. In step sampling, the agent tries different tools and obtains corresponding results. In step verification, we employ a verifier to provide AI feedback to construct step-wise preference data. The data is subsequently used to update the controller for tool usage through preference tuning, producing a SPORT agent. By interacting with real environments, the SPORT agent gradually evolves into a more refined and capable system. Evaluation in the GTA and GAIA benchmarks shows that the SPORT agent achieves 6.41% and 3.64% improvements, underscoring the generalization and effectiveness introduced by our method. The project page is https://SPORT-Agents.github.io.
Abstract（参考訳）: 視覚言語モデルであるコントローラegを外部ツールと統合したマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。これらのエージェントを訓練するための既存のアプローチは、教師付き微調整と強化学習の両方で、広範囲の人間-回答ペアとツールトラジェクトリに依存している。しかし、複雑なマルチモーダルなタスクでは、このようなアノテーションは違法に高価または現実的ではない。本稿では,ツール利用の軌跡を洗練させるために,ステップワイズな選好最適化を通じて,事前コンパイルデータのないマルチモーダルエージェントを対象とした反復的ツール利用探索手法を提案する。提案手法により,マルチモーダルエージェントは自己探索と最適化によって効果的なツール利用戦略を自律的に発見し,人間のアノテーションのボトルネックを取り除くことができる。 Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。まず,言語モデルを用いてマルチモーダルタスクを合成する。そこで我々は, ステップサンプリングとステップ検証を交互に行い, 合成タスクを解く新しい軌道探索手法を提案する。ステップサンプリングでは、エージェントは異なるツールを試行し、対応する結果を得る。ステップ検証では、ステップワイズ選好データを構築するためにAIフィードバックを提供する検証器を用いる。データはその後、好みのチューニングを通じてツール使用のためのコントローラを更新するために使用され、Sportエージェントを生成する。実際の環境と対話することで、Sportエージェントは徐々に洗練され、能力のあるシステムへと進化する。 GTAおよびGAIAベンチマークでは,Sportエージェントが6.41%と3.64%の改善を達成し,本手法が導入した一般化と有効性を実証した。プロジェクトページはhttps://Sport-Agents.github.io.com。

関連論文リスト

LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。 LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文参考訳（メタデータ） (2025-05-28T04:30:51Z)
T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文参考訳（メタデータ） (2025-05-26T09:50:55Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。 GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文参考訳（メタデータ） (2025-03-16T14:53:43Z)
Multi-Agent Geospatial Copilots for Remote Sensing Workflows [1.8241060496411214]
GeoLLM-Squadがリモートセンシング(RS)に新しいマルチエージェントパラダイムを導入モノリシックな大規模言語モデル(LLM)に依存している既存の単一エージェントアプローチとは異なり、GeoLLM-Squadは地理的タスク解決からエージェントオーケストレーションを分離する。我々の研究は、都市モニタリング、森林保護、気候分析、農業研究にまたがる多様なアプリケーションのモジュラー統合を可能にする。
論文参考訳（メタデータ） (2025-01-27T17:54:31Z)
Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文参考訳（メタデータ） (2025-01-23T07:49:24Z)
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文参考訳（メタデータ） (2024-12-22T15:16:44Z)
TrajAgent: An Agent Framework for Unified Trajectory Modelling [7.007450097312181]
軌道モデリングは、生活サービス、都市交通、行政などの分野で広く応用されている。本稿では,大規模言語モデルに基づくエージェントフレームワークであるTrajAgentを提案する。
論文参考訳（メタデータ） (2024-10-27T13:51:09Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-08-03T22:49:27Z)
Octo-planner: On-device Language Model for Planner-Action Agents [19.627197141903505]
Planner-Actionフレームワークは、計画とアクションの実行を2つの異なるコンポーネントに分離する。 Agentはまず、タスクをサブステップのシーケンスに分解してユーザクエリに応答し、アクションエージェントによって実行される。我々は、文脈内学習の代わりにモデル微調整を採用し、計算コストとエネルギー消費を削減した。
論文参考訳（メタデータ） (2024-06-26T05:40:10Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Learning Generalizable Tool-use Skills through Trajectory Generation [13.879860388944214]
4つの異なる変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2023-09-29T21:32:42Z)
AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文参考訳（メタデータ） (2023-09-29T14:46:30Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。