論文の概要: MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
- arxiv url: http://arxiv.org/abs/2601.21821v1
- Date: Thu, 29 Jan 2026 15:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.917063
- Title: MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
- Title(参考訳): MMFineReason:オープンデータ中心手法によるマルチモーダル推論ギャップのクローン化
- Authors: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu,
- Abstract要約: 我々は、1.8Mサンプルと5.1Bソリューショントークンからなる大規模マルチモーダル推論データセットMMFineReasonを紹介する。
得られたデータセットは、STEM問題、視覚パズル、ゲーム、複雑なダイアグラムにまたがっており、各サンプルには視覚的に根拠付けられた推論トレースが付加されている。
我々のモデルは、彼らのサイズクラスに対して、新しい最先端の結果を確立します。
- 参考スコア(独自算出の注目度): 41.49799689399879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は、視覚的推論に大きな進歩をもたらした。
しかし、オープンソースのVLMは依然としてプロプライエタリなシステムに遅れを取っている。
既存のデータセットは、STEMダイアグラムやビジュアルパズルのような挑戦的なドメインを限定的にカバーし、強い推論能力を引き出すのに不可欠な一貫性のある長文のChain-of-Thought(CoT)アノテーションを欠いている。
このギャップを埋めるために,Qwen3-VL-235B-A22B-Thinkingから抽出した高品質な推論アノテーションを特徴とする,1.8Mサンプルと5.1Bソリューショントークンからなる大規模マルチモーダル推論データセットMMFineReasonを紹介する。
データセットは,(1)大規模データ収集と標準化,(2)CoT合理化生成,(3)推論品質と難易度認識に基づく包括的選択という,体系的な3段階のパイプラインを通じて構築される。
得られたデータセットは、STEM問題、視覚パズル、ゲーム、複雑な図にまたがっており、各サンプルには、視覚的に根拠付けられた推論トレースが付加されている。
MMFineReasonのQwen3-VL-インストラクションを微調整してMMFineReason-2B/4B/8Bバージョンを開発する。
我々のモデルは、彼らのサイズクラスに対して、新しい最先端の結果を確立します。
特に、MMFineReason-4B は Qwen3-VL-8B-Thinking を巧みに上回り、MMFineReason-8B は Qwen3-VL-30B-A3B-Thinking を上回り、Qwen3-VL-32B-Thinking に近づき、パラメータ効率が顕著である。
重要なことに、我々は難解なフィルタリング戦略を通じて、"less is more"現象を発見した: たった7\%(123Kサンプル)のサブセットは、完全なデータセットに匹敵するパフォーマンスを達成する。
特に、推論指向のデータ合成が一般化能力を同時に促進する相乗効果を明らかにする。
関連論文リスト
- Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - VERITAS: Leveraging Vision Priors and Expert Fusion to Improve Multimodal Data [3.638465758795032]
VERITASは、SFTデータ品質を向上させるために、ビジョン先行と複数の最先端LMMを統合するパイプラインである。
3つのLMMが元の答えを評価し、信頼性の高いスコアに統計的に融合した批判的合理性とスコアを提供する。
我々の批評家モデルは、最先端のLMMに匹敵する拡張能力を示しながら、より効率的である。
論文 参考訳(メタデータ) (2025-10-17T05:13:50Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。