論文の概要: MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning
- arxiv url: http://arxiv.org/abs/2507.21924v1
- Date: Tue, 29 Jul 2025 15:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.568342
- Title: MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning
- Title(参考訳): MMAT-1M:マルチモーダルエージェントチューニングのための大規模推論データセット
- Authors: Tianhong Gao, Yannian Fu, Weiqun Wu, Haixiao Yue, Shanshan Liu, Gang Zhang,
- Abstract要約: MMAT-1Mは、CoT、リフレクション、動的ツールの使用をサポートするために設計された最初の100万規模のマルチモーダルエージェントチューニングデータセットである。
我々のデータセットは、新しい4段階のデータエンジンによって構築されます。
MMAT-1M上でのオープンソースのマルチモーダルモデルを微調整することにより,大幅な性能向上を観測する。
- 参考スコア(独自算出の注目度): 4.963955559863751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), enhanced through agent tuning, have demonstrated remarkable capabilities in Chain-of-Thought (CoT) and tool utilization, significantly surpassing the performance of standalone models. However, the multimodal domain still lacks a large-scale, high-quality agent tuning dataset to unlock the full potential of multimodal large language models. To bridge this gap, we introduce MMAT-1M, the first million-scale multimodal agent tuning dataset designed to support CoT, reflection, and dynamic tool usage. Our dataset is constructed through a novel four-stage data engine: 1) We first curate publicly available multimodal datasets containing question-answer pairs; 2) Then, leveraging GPT-4o, we generate rationales for the original question-answer pairs and dynamically integrate API calls and Retrieval Augmented Generation (RAG) information through a multi-turn paradigm; 3) Furthermore, we refine the rationales through reflection to ensure logical consistency and accuracy, creating a multi-turn dialogue dataset with both Rationale and Reflection (RR); 4) Finally, to enhance efficiency, we optionally compress multi-turn dialogues into a One-turn Rationale and Reflection (ORR) format. By fine-tuning open-source multimodal models on the MMAT-1M, we observe significant performance gains. For instance, the InternVL2.5-8B-RR model achieves an average improvement of 2.7% across eight public benchmarks and 8.8% on the RAG benchmark Dyn-VQA, demonstrating the dataset's effectiveness in enhancing multimodal reasoning and tool-based capabilities. The dataset is publicly available at https://github.com/VIS-MPU-Agent/MMAT-1M.
- Abstract(参考訳): エージェントチューニングによって強化されたLarge Language Models(LLM)は、Chain-of-Thought(CoT)とツール利用において顕著な能力を示し、スタンドアロンモデルの性能を大幅に上回っている。
しかし、マルチモーダルドメインには、マルチモーダル大言語モデルの潜在能力を最大限に活用するために、大規模で高品質なエージェントチューニングデータセットがまだ欠けている。
このギャップを埋めるために,CoT,リフレクション,動的ツール使用をサポートするために設計された,最初の100万規模のマルチモーダルエージェントチューニングデータセットであるMMAT-1Mを導入する。
私たちのデータセットは、新しい4段階のデータエンジンによって構築されます。
1)質問応答ペアを含む公開されているマルチモーダルデータセットを最初にキュレートする。
2) GPT-4o を利用して,従来の問合せ対の合理性を生成し,マルチターンパラダイムによるAPI呼び出しと検索拡張生成(RAG)情報を動的に統合する。
さらに、論理的一貫性と精度を確保するために、リフレクション(Rationale and Reflection, RRR)とリフレクション(Rationale and Reflection, RRR)を併用した多ターン対話データセットを作成する。
4) 最後に, 効率を向上させるため, 任意に複数ターン対話をワンターン・リフレクション(ORR)形式に圧縮する。
MMAT-1M上でのオープンソースのマルチモーダルモデルを微調整することにより,大幅な性能向上を観測する。
例えば、InternVL2.5-8B-RRモデルは、8つの公開ベンチマークで平均2.7%、RAGベンチマークのDyn-VQAで8.8%の改善を実現し、マルチモーダル推論とツールベースの機能の向上におけるデータセットの有効性を実証している。
データセットはhttps://github.com/VIS-MPU-Agent/MMAT-1Mで公開されている。
関連論文リスト
- MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。
本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文 参考訳(メタデータ) (2025-06-09T16:20:54Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。