Fugu-MT 論文翻訳(概要): Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models

論文の概要: Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models

arxiv url: http://arxiv.org/abs/2505.23091v1
Date: Thu, 29 May 2025 04:51:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.682237
Title: Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models
Title（参考訳）: Infi-MMR:マルチモーダル小言語モデルにおける段階強化学習によるカリキュラムベースアンロックマルチモーダル推論
Authors: Zeyu Liu, Yuhang Liu, Guanghao Zhu, Congkai Xie, Zhen Li, Jianbo Yuan, Xinyao Wang, Qing Li, Shing-Chi Cheung, Shengyu Zhang, Fei Wu, Hongxia Yang,
Abstract要約: MLLM(Multimodal large language model)は重要な課題である。高品質なマルチモーダル推論データセットの不足。視覚処理の統合による推論能力の低下。強化学習が直接適用されるリスクは、複雑だが誤った推論プロセスを引き起こす可能性がある。 Infi-MMR-3Bは、最先端のマルチモーダル数学推論能力を実現する。
参考スコア（独自算出の注目度）: 45.15161506154318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) have demonstrated substantial progress in reasoning capabilities, such as DeepSeek-R1, which leverages rule-based reinforcement learning to enhance logical reasoning significantly. However, extending these achievements to multimodal large language models (MLLMs) presents critical challenges, which are frequently more pronounced for Multimodal Small Language Models (MSLMs) given their typically weaker foundational reasoning abilities: (1) the scarcity of high-quality multimodal reasoning datasets, (2) the degradation of reasoning capabilities due to the integration of visual processing, and (3) the risk that direct application of reinforcement learning may produce complex yet incorrect reasoning processes. To address these challenges, we design a novel framework Infi-MMR to systematically unlock the reasoning potential of MSLMs through a curriculum of three carefully structured phases and propose our multimodal reasoning model Infi-MMR-3B. The first phase, Foundational Reasoning Activation, leverages high-quality textual reasoning datasets to activate and strengthen the model's logical reasoning capabilities. The second phase, Cross-Modal Reasoning Adaptation, utilizes caption-augmented multimodal data to facilitate the progressive transfer of reasoning skills to multimodal contexts. The third phase, Multimodal Reasoning Enhancement, employs curated, caption-free multimodal data to mitigate linguistic biases and promote robust cross-modal reasoning. Infi-MMR-3B achieves both state-of-the-art multimodal math reasoning ability (43.68% on MathVerse testmini, 27.04% on MathVision test, and 21.33% on OlympiadBench) and general reasoning ability (67.2% on MathVista testmini).
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、DeepSeek-R1のような論理的推論を大幅に強化するためにルールベースの強化学習を活用する推論能力の大幅な進歩を示している。しかし、これらの成果をMLLM(Multimodal Large Language Model)に拡張することは、一般的には基礎的推論能力が弱く、(1)高品質なマルチモーダル推論データセットの不足、(2)視覚処理の統合による推論能力の低下、(3)強化学習の直接適用が複雑で誤った推論プロセスを生み出すリスクなど、重要な課題を生じさせる。これらの課題に対処するため、我々は、3つの慎重に構造化された段階のカリキュラムを用いて、MSLMの推論可能性を体系的に解放する新しいフレームワークInfi-MMRを設計し、マルチモーダル推論モデルInfi-MMR-3Bを提案する。第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。 Infi-MMR-3Bは、最先端のマルチモーダル数学推論能力(MathVerseテストミニで43.68%、MathVisionテストで27.04%、OlympiadBenchで21.33%)と一般的な推論能力(MathVistaテストミニで67.2%)を達成している。

関連論文リスト

VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。 PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-07-30T12:23:21Z)
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文参考訳（メタデータ） (2025-06-04T17:51:08Z)
Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。 MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文参考訳（メタデータ） (2025-05-21T17:59:54Z)
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL [32.67667242745463]
規則に基づく多モーダル推論のための2段階のフレームワークをtextbfFoundational Reasoning Enhancement (FRE) と textbfMultimodal Generalization Training (MGT) で提案する。 Qwen2.5-VL-Instruct-3Bの実験では、LMM-R1はマルチモーダルとテキストのみのベンチマークでそれぞれ平均4.83%、平均4.5%向上し、複雑なフットボールゲームでは3.63%向上した。
論文参考訳（メタデータ） (2025-03-10T17:04:14Z)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。 EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。 EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文参考訳（メタデータ） (2025-01-09T18:55:52Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文参考訳（メタデータ） (2023-10-25T08:03:10Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。