論文の概要: OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
- arxiv url: http://arxiv.org/abs/2511.16334v1
- Date: Thu, 20 Nov 2025 13:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.633861
- Title: OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
- Title(参考訳): OpenMMReasoner: オープンで汎用的なマルチモーダル推論のためのフロンティアを推進
- Authors: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing,
- Abstract要約: 細調整と強化学習にまたがるマルチモーダル推論のための完全透明な2段階レシピであるOpenMMReasonerを紹介する。
提案手法は,9つのマルチモーダル推論ベンチマークにおいて,Qwen2.5-VL-7B-インストラクタベースラインよりも11.6%向上した。
- 参考スコア(独自算出の注目度): 69.90298686714036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
- Abstract(参考訳): 大規模推論モデルの最近の進歩は、そのような機能をマルチモーダル領域に拡張することへの関心を高めている。
しかし、視覚的推論の顕著な進歩にもかかわらず、透明で再現可能なデータキュレーションとトレーニング戦略の欠如は、スケーラブルな研究の大きな障壁である。
本研究では,教師付き微調整(SFT)と強化学習(RL)にまたがるマルチモーダル推論のための,完全に透明な2段階のレシピであるOpenMMReasonerを紹介する。
SFTの段階では、厳密なステップバイステップの検証が可能な874Kサンプルのコールドスタートデータセットを構築し、推論能力の強力な基盤を提供する。
その後のRLステージでは、さまざまなドメインにわたる74Kサンプルデータセットを活用して、これらの能力をさらに強化し、安定化することで、より堅牢で効率的な学習プロセスを実現する。
大規模な評価は,トレーニングレシピが強靭なベースラインを超えるだけでなく,データ品質と学習設計がマルチモーダル推論性能を形作る上で重要な役割を担っていることを示している。
特に,Qwen2.5-VL-7B-インストラクタベースラインを9つのマルチモーダル推論ベンチマークで11.6%改善し,将来の大規模マルチモーダル推論研究の確固たる実証的基盤を確立した。
私たちは、すべてのコード、パイプライン、データをhttps://github.com/EvolvingLMMs-Lab/OpenMMReasoner.comでオープンソース化しました。
関連論文リスト
- MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い
本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。
実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-28T13:21:38Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。