論文の概要: RL makes MLLMs see better than SFT
- arxiv url: http://arxiv.org/abs/2510.16333v1
- Date: Sat, 18 Oct 2025 03:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.952164
- Title: RL makes MLLMs see better than SFT
- Title(参考訳): RLでMLLMはSFTより良く見える
- Authors: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo,
- Abstract要約: マルチモーダル言語モデル(MLLM)の視覚エンコーダの批判的かつ未探索な解析を行う。
その結果、MLLMの学習後戦略(SFTまたはRL)は、下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの根底にある視覚的表現を根本的に再認識することを示した。
次に、私たちの知見をMLLMのための強力なビジョンエンコーダを構築するための簡単なレシピ、Preference-Instructed Vision OpTimization (PIVOT) に再構成する。
- 参考スコア(独自算出の注目度): 96.508432109136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A dominant assumption in Multimodal Language Model (MLLM) research is that its performance is largely inherited from the LLM backbone, given its immense parameter scale and remarkable capabilities. This has created a void in the understanding of the vision encoder, which determines how MLLMs perceive images. The recent shift in MLLM training paradigms, from Supervised Finetuning (SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the significant lack of analysis on how such training reshapes the vision encoder as well as the MLLM. To address this, we first investigate the impact of training strategies on MLLMs, where RL shows a clear advantage over SFT in strongly vision-related VQA benchmarks. Motivated by this, we conduct a critical yet under-explored analysis of the vision encoder of MLLMs through diverse and in-depth experiments, ranging from ImageNet classification and segmentation to gradient visualization. Our results demonstrate that MLLM's post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual representations. Specifically, the key finding of our study is that RL produces stronger and precisely localized visual representations compared to SFT, boosting the ability of the vision encoder for MLLM. We then reframe our findings into a simple recipe for building strong vision encoders for MLLMs, Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs, a PIVOT-trained vision encoder outperforms even larger and more heavily-trained counterparts, despite requiring less than 1% of the computational cost of standard vision pretraining. This result opens an effective and efficient path for advancing the vision backbones of MLLMs. Project page available at https://june-page.github.io/pivot/
- Abstract(参考訳): MLLM(Multimodal Language Model)研究における主要な前提は、その性能がLLMのバックボーンから大きく継承されていることである。
これはビジョンエンコーダの理解において空白となり、MLLMがどのようにイメージを知覚するかを決定する。
監視ファインタニング(SFT)から強化学習(RL)への近年のMLLMトレーニングパラダイムのシフトは、このようなトレーニングがビジョンエンコーダやMLLMにどのように影響するかという分析の欠如から、この監視を拡大している。
そこで,RLは強視関連VQAベンチマークにおいて,SFTに対して明らかな優位性を示す。
そこで我々は,イメージネットの分類やセグメンテーション,勾配の可視化など,MLLMの視覚エンコーダの多種多様かつ詳細な実験を通じて,批判的かつ未探索な分析を行う。
その結果、MLLMの学習後戦略(SFTまたはRL)は、下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの根底にある視覚的表現を根本的に再認識することを示した。
具体的には、SFTと比較してRLがより強く正確に局所化された視覚表現を生成し、MLLMの視覚エンコーダの能力を高めることが本研究の重要な発見である。
次に、この知見を、MLLMのための強力なビジョンエンコーダ(Preference-Instructed Vision OpTimization, PIVOT)を構築するための簡単なレシピに再構成する。
PIVOTで訓練されたビジョンエンコーダはMLLMに組み込むと、標準ビジョンプリトレーニングの計算コストの1%未満を必要としながら、より大きく、より高度に訓練されたものよりも性能が向上する。
この結果は、MLLMの視覚バックボーンを前進させる効果的で効率的な経路を開く。
Project page available at https://june-page.github.io/pivot/
関連論文リスト
- NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Training-Free Reasoning and Reflection in MLLMs [45.134271969594614]
本稿では,FRANKモデルについて紹介する。FRANKモデルとは,既製のMLLMに推論とリフレクションを付与したトレーニングフレームANd r1-liKe MLLMである。
私たちの重要な洞察は、MLLMデコーダ層間の認識と推論を分離することです。
そこで本研究では, 深いデコーダ層に推論能力を統合する, テイラー型閉形式融合機構を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:51:12Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。