論文の概要: MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
- arxiv url: http://arxiv.org/abs/2510.08567v1
- Date: Thu, 09 Oct 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.310168
- Title: MATRIX: Multimodal Agent Tuning for Robust Tool-Use Reasoning
- Title(参考訳): MATRIX:ロバストツール用マルチモーダルエージェントチューニング
- Authors: Tajamul Ashraf, Umair Nawaz, Abdelrahman M. Shaker, Rao Anwer, Philip Torr, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: マルチモーダル軌道を自動的に合成する視覚中心型エージェントチューニングフレームワークを開発した。
また、自動生成された11Kの選好ペアであるPref-Xについても紹介する。
Agent-X、GTA、GAIAの3つのベンチマークで、MATRIXはオープンソースとクローズドソースの両方のVLMを一貫して上回っている。
- 参考スコア(独自算出の注目度): 65.200259961515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) are increasingly deployed as controllers with access to external tools for complex reasoning and decision-making, yet their effectiveness remains limited by the scarcity of high-quality multimodal trajectories and the cost of manual annotation. We address this challenge with a vision-centric agent tuning framework that automatically synthesizes multimodal trajectories, generates step-wise preference pairs, and trains a VLM controller for robust tool-use reasoning. Our pipeline first constructs M-TRACE, a large-scale dataset of 28.5K multimodal tasks with 177K verified trajectories, enabling imitation-based trajectory tuning. Building on this, we develop MATRIX Agent, a controller finetuned on M-TRACE for step-wise tool reasoning. To achieve finer alignment, we further introduce Pref-X, a set of 11K automatically generated preference pairs, and optimize MATRIX on it via step-wise preference learning. Across three benchmarks, Agent-X, GTA, and GAIA, MATRIX consistently surpasses both open- and closed-source VLMs, demonstrating scalable and effective multimodal tool use. Our data and code is avaliable at https://github.com/mbzuai-oryx/MATRIX.
- Abstract(参考訳): 視覚言語モデル(VLM)は、複雑な推論や意思決定のための外部ツールにアクセス可能なコントローラとしてますます普及しているが、その効果は高品質なマルチモーダル軌道の不足と手動アノテーションのコストによって制限されている。
マルチモーダルな軌道を自動的に合成し、ステップワイドな選好ペアを生成し、堅牢なツール利用推論のためにVLMコントローラを訓練する、視覚中心のエージェントチューニングフレームワークでこの問題に対処する。
パイプラインはまず,28.5Kのマルチモーダルタスクの大規模データセットであるM-TRACEを177Kのトラジェクトリで構築し,模倣に基づくトラジェクトリチューニングを実現する。
そこで我々は,ステップワイズツール推論のためのM-TRACEを微調整したMATRIX Agentを開発した。
より微細なアライメントを実現するために,11K自動生成された選好ペアのセットであるPref-Xを導入し,ステップワイズ選好学習を通じてMATRIXを最適化する。
Agent-X、GTA、GAIAの3つのベンチマークで、MATRIXはオープンソースとクローズドソースの両方のVLMを一貫して上回り、スケーラブルで効果的なマルチモーダルツールの使用を実証している。
我々のデータとコードはhttps://github.com/mbzuai-oryx/MATRIX.comで検証できます。
関連論文リスト
- TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments [30.078263383249862]
Toucanは、これまでで最大規模のツール・アジェンティックデータセットである。
多様な、現実的で、挑戦的なタスクを、実際のツールの実行を含む軌道で生成します。
論文 参考訳(メタデータ) (2025-10-01T17:58:03Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage [75.76940471949366]
本稿では,マルチモーダルツール使用データを自動的に生成するマルチモーダルエージェントチューニング手法を提案する。
データ品質を維持するため、GPT-4oミニモデルにクエリ、ファイル、トラジェクトリを生成するよう促す。
T3-Agentは2つの人気のあるVLMの改良を一貫して達成している。
論文 参考訳(メタデータ) (2024-12-20T07:00:46Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。