論文の概要: MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning
- arxiv url: http://arxiv.org/abs/2512.07203v1
- Date: Mon, 08 Dec 2025 06:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.739542
- Title: MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning
- Title(参考訳): MMRPT:マスクドビジョン依存推論によるマルチモーダル強化事前訓練
- Authors: Xuhui Zheng, Kang An, Ziliang Wang, Yuhang Wang, Faqiang Qian, Yichao Wu,
- Abstract要約: MLLMにおける視覚的推論を強化するマルチモーダル強化事前学習フレームワークであるMMRPTを紹介する。
我々は,大規模視覚言語モデルの事前学習に強化学習を直接取り入れた最初の人物である。
実験では、様々なベンチマークで一貫したゼロショットゲインが示され、教師付き微調整下ではロバスト性が大幅に改善された。
- 参考スコア(独自算出の注目度): 20.14427952871989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal pre-training remains constrained by the descriptive bias of image-caption pairs, leading models to favor surface linguistic cues over grounded visual understanding. We introduce MMRPT, a masked multimodal reinforcement pre-training framework that strengthens visual reasoning in MLLMs. We are the first to incorporate reinforcement learning directly into the pre-training of large vision-language models, enabling learning signals that reward visual grounding rather than caption imitation. MMRPT constructs masked multimodal data by estimating sentence-level visual dependency via attention over visual tokens and masking highly vision-dependent segments; the model reconstructs these spans through vision-grounded reasoning guided by a semantic-visual reward. Experiments show consistent zero-shot gains across diverse benchmarks and substantially improved robustness under supervised fine-tuning, demonstrating that reinforcement-driven masked reasoning provides a more reliable and generalizable pre-training objective for multimodal models.
- Abstract(参考訳): マルチモーダル事前学習は、画像キャプチャ対の記述バイアスによって制約され、基底的視覚的理解よりも表面言語的手がかりが好まれる。
MLLMにおける視覚的推論を強化するマスク付きマルチモーダル強化事前学習フレームワークであるMMRPTを紹介する。
我々は,大規模な視覚言語モデルの事前学習に強化学習を直接組み込むことで,字幕模倣よりも視覚的接地に報いる学習信号を可能にする。
MMRPTは、視覚トークンへの注意を通して文レベルの視覚依存を推定し、視覚に依存したセグメントをマスキングすることにより、マスキングされたマルチモーダルデータを構成する。
実験では、様々なベンチマークで一貫したゼロショットゲインを示し、教師付き微調整により頑健性を大幅に改善し、強化駆動型マスク推論がマルチモーダルモデルに対してより信頼性があり、より一般化可能な事前学習目標を提供することを示した。
関連論文リスト
- Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs [9.953258838113]
本稿では,コンテキストとコモンセンスを用いた新しい微調整タスクであるMasked Predictionを導入する。
このタスクは、隠蔽された画像から意味的に意味のあるコンテンツを再構成することで、視覚的コンテキストと常識的推論を統合するようモデルに強制する。
また,先行サンプリングによる強化ファインチューニングというイノベーティブなトレーニング手法も導入する。
論文 参考訳(メタデータ) (2025-10-21T08:50:11Z) - Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。
しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文 参考訳(メタデータ) (2025-09-09T17:59:14Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。