論文の概要: M2-Reasoning: Empowering MLLMs with Unified General and Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2507.08306v1
- Date: Fri, 11 Jul 2025 04:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.240059
- Title: M2-Reasoning: Empowering MLLMs with Unified General and Spatial Reasoning
- Title(参考訳): M2-Reasoning:Unified General and Space ReasoningによるMLLMの強化
- Authors: Inclusion AI, :, Fudong Wang, Jiajia Liu, Jingdong Chen, Jun Zhou, Kaixiang Ji, Lixiang Ru, Qingpei Guo, Ruobing Zheng, Tianqi Li, Yi Yuan, Yifan Mao, Yuting Xiao, Ziping Ma,
- Abstract要約: M2-Reasoning-7Bは一般推論と空間推論の両方において優れているように設計されたモデルである。
このキュレートされたデータと高度なトレーニングの組み合わせにより、M2-Reasoning-7Bは8つのベンチマークで新しい最先端(SOTA)を設定できる。
- 参考スコア(独自算出の注目度): 34.68478238938406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs), particularly through Reinforcement Learning with Verifiable Rewards (RLVR), have significantly enhanced their reasoning abilities. However, a critical gap persists: these models struggle with dynamic spatial interactions, a capability essential for real-world applications. To bridge this gap, we introduce M2-Reasoning-7B, a model designed to excel in both general and spatial reasoning. Our approach integrates two key innovations: (1) a novel data pipeline that generates 294.2K high-quality data samples (168K for cold-start fine-tuning and 126.2K for RLVR), which feature logically coherent reasoning trajectories and have undergone comprehensive assessment; and (2) a dynamic multi-task training strategy with step-wise optimization to mitigate conflicts between data, and task-specific rewards for delivering tailored incentive signals. This combination of curated data and advanced training allows M2-Reasoning-7B to set a new state-of-the-art (SOTA) across 8 benchmarks, showcasing superior performance in both general and spatial reasoning domains.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩、特にReinforcement Learning with Verifiable Rewards(RLVR)により、その推論能力は大幅に向上した。
これらのモデルは、現実世界のアプリケーションに不可欠な能力である動的な空間的相互作用に苦しむ。
このギャップを埋めるために,一般推論と空間推論の両方において優れたモデルであるM2-Reasoning-7Bを導入する。
提案手法は,(1)冷間開始微調整用294.2Kデータサンプル(168K,RLVR用126.2K)を新たに生成するデータパイプラインと,(2)データ間の競合を緩和するための段階的に最適化した動的マルチタスクトレーニング戦略,および,適切なインセンティブ信号を提供するためのタスク固有の報酬,の2点を統合する。
このキュレートされたデータと高度なトレーニングの組み合わせにより、M2-Reasoning-7Bは8つのベンチマークにまたがって新しい最先端(SOTA)を設定できる。
関連論文リスト
- MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。
我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。
結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-06-01T08:26:34Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。