論文の概要: VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2507.22607v1
- Date: Wed, 30 Jul 2025 12:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.183633
- Title: VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning
- Title(参考訳): VL-Cogito:高度マルチモーダル推論のためのプログレッシブカリキュラム強化学習
- Authors: Ruifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong,
- Abstract要約: 本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
- 参考スコア(独自算出の注目度): 69.44871115752055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has proven its effectiveness in enhancing the reasoning capabilities of large language models. Recent research efforts have progressively extended this paradigm to multimodal reasoning tasks. Due to the inherent complexity and diversity of multimodal tasks, especially in semantic content and problem formulations, existing models often exhibit unstable performance across various domains and difficulty levels. To address these limitations, we propose VL-Cogito, an advanced multimodal reasoning model trained via a novel multi-stage Progressive Curriculum Reinforcement Learning (PCuRL) framework. PCuRL systematically guides the model through tasks of gradually increasing difficulty, substantially improving its reasoning abilities across diverse multimodal contexts. The framework introduces two key innovations: (1) an online difficulty soft weighting mechanism, dynamically adjusting training difficulty across successive RL training stages; and (2) a dynamic length reward mechanism, which encourages the model to adaptively regulate its reasoning path length according to task complexity, thus balancing reasoning efficiency with correctness. Experimental evaluations demonstrate that VL-Cogito consistently matches or surpasses existing reasoning-oriented models across mainstream multimodal benchmarks spanning mathematics, science, logic, and general understanding, validating the effectiveness of our approach.
- Abstract(参考訳): 強化学習は、大規模言語モデルの推論能力を高める効果を証明している。
最近の研究は、このパラダイムをマルチモーダル推論タスクに徐々に拡張している。
マルチモーダルタスクの本質的な複雑さと多様性、特にセマンティックコンテンツや問題定式化において、既存のモデルは様々な領域にわたる不安定なパフォーマンスと難易度を示すことが多い。
これらの制約に対処するため,我々は,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した,高度なマルチモーダル推論モデルであるVL-Cogitoを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークでは,(1)連続するRLトレーニング段階のトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスクの複雑さに応じて推論経路長を適応的に調整する動的長報奨機構を導入し,推論効率と正しさのバランスをとる。
実験により、VL-コギトは、数学、科学、論理学、一般理解にまたがる主流のマルチモーダルベンチマークにおいて、既存の推論指向モデルと一貫して一致しているか、あるいは超越しているかを示し、我々のアプローチの有効性を検証した。
関連論文リスト
- Multimodal Mathematical Reasoning with Diverse Solving Perspective [65.07953438724105]
画像探索ペア毎に複数の多様な解トラジェクトリをキャプチャする新しいデータセットであるMathV-DPを紹介する。
本稿では,Qwen-VLに基づくモデルQwen-VL-DPを提案する。
本手法は,様々な推論の観点からの学習を重視し,正しい解と異なる解を区別する。
論文 参考訳(メタデータ) (2025-07-03T17:07:20Z) - Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
Infi-MMRは、マルチモーダル小言語モデルの推論能力を体系的に解放するフレームワークである。
第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。
第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。
第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。
論文 参考訳(メタデータ) (2025-05-29T04:51:56Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Diving into Self-Evolving Training for Multimodal Reasoning [36.70979791148913]
自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。
本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。
M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
論文 参考訳(メタデータ) (2024-12-23T10:18:41Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。