論文の概要: Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
- arxiv url: http://arxiv.org/abs/2604.28123v2
- Date: Fri, 01 May 2026 18:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:07.08809
- Title: Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
- Title(参考訳): SFT-to-RLを超える:マルチモーダルRLのためのブラックボックスオンポリィ蒸留による事前調整
- Authors: Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin, Keming Wu, Chaojun Xiao, Chen Chen, Wenxuan Wang, Beier Zhu, Yunjian Zhang, Chengwei Qin,
- Abstract要約: PRISMは、SFTとRLVRの間のドリフトを緩和する3段階パイプラインである。
PRISMは、ポリシーとMixture-of-Experts識別器の間のブラックボックス、レスポンスレベルの対戦ゲームとしてアライメントをキャストする。
Qwen3-VLの実験では、PRISMは複数のRLアルゴリズムでダウンストリームRLVR性能を一貫して改善している。
- 参考スコア(独自算出の注目度): 32.91626063934283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard post-training recipe for large multimodal models (LMMs) applies supervised fine-tuning (SFT) on curated demonstrations followed by reinforcement learning with verifiable rewards (RLVR). However, SFT introduces distributional drift that neither preserves the model's original capabilities nor faithfully matches the supervision distribution. This problem is further amplified in multimodal reasoning, where perception errors and reasoning failures follow distinct drift patterns that compound during subsequent RL. We introduce PRISM, a three-stage pipeline that mitigates this drift by inserting an explicit distribution-alignment stage between SFT and RLVR. Building on the principle of on-policy distillation (OPD), PRISM casts alignment as a black-box, response-level adversarial game between the policy and a Mixture-of-Experts (MoE) discriminator with dedicated perception and reasoning experts, providing disentangled corrective signals that steer the policy toward the supervision distribution without requiring access to teacher logits. While 1.26M public demonstrations suffice for broad SFT initialization, distribution alignment demands higher-fidelity supervision; we therefore curate 113K additional demonstrations from Gemini 3 Flash, featuring dense visual grounding and step-by-step reasoning on the hardest unsolved problems. Experiments on Qwen3-VL show that PRISM consistently improves downstream RLVR performance across multiple RL algorithms (GRPO, DAPO, GSPO) and diverse multimodal benchmarks, improving average accuracy by +4.4 and +6.0 points over the SFT-to-RLVR baseline on 4B and 8B, respectively. Our code, data, and model checkpoints are publicly available at https://github.com/XIAO4579/PRISM.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の標準的な訓練後レシピは、検証可能な報酬付き強化学習(RLVR)に続いて、キュレートされたデモに対して教師付き微調整(SFT)を適用している。
しかし、SFTはモデルの本来の能力を維持したり、監督分布と忠実に一致しない分布ドリフトを導入している。
この問題はマルチモーダル推論においてさらに増幅され、知覚誤差と推論失敗はその後のRLで複雑になる異なるドリフトパターンに従う。
我々は,このドリフトを緩和する3段パイプラインであるPRISMを導入し,SFTとRLVRの間に明示的な分布調整段階を挿入する。
オンライン蒸留(OPD)の原則に基づいて、PRISMは、ポリシーと専門知識の混合(MoE)識別器の間のブラックボックス、応答レベルの対立ゲームとしてアライメントをキャストし、教師のロジットへのアクセスを必要とせずに、教師の配当に対するポリシーを操る歪んだ補正信号を提供する。
1.26万の公開デモがSFTの初期化に十分であるのに対して、分配アライメントは高忠実さの監視を必要とするため、最も難しい未解決問題に対して、高密度のビジュアルグラウンドとステップバイステップの推論を特徴とする、Gemini 3 Flashから113Kの追加デモをキュレートする。
Qwen3-VLの実験によると、PRISMは複数のRLアルゴリズム(GRPO, DAPO, GSPO)と多様なマルチモーダルベンチマークで、それぞれ4Bと8BのSFT-to-RLVRベースラインで平均精度を+4.4と+6.0で改善している。
私たちのコード、データ、モデルチェックポイントはhttps://github.com/XIAO4579/PRISM.comで公開されています。
関連論文リスト
- Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning [10.4404175363648]
大規模言語モデル(LLM)のポストトレーニングパラダイムは、基本的なジレンマに直面します。
SFTは安定性(低分散)を提供するが、高い適合バイアスに悩まされる一方、RLは探索(低バイアス)が可能であるが、高勾配のばらつきを持つ波紋である。
既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。
我々は,この対立を構造的に緩和する統合フレームワークである textbfDYPO (Dynamic Policy Optimization) を提案する。
論文 参考訳(メタデータ) (2026-04-10T03:42:16Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models [74.10138874771852]
RLVR上で視覚知覚とテキスト推論を別々に改善する分離されたフレームワークであるPeRL-VL(Perception and Reasoning Learning for Vision-Language Models)を提案する。
知覚のために、PeRL-VLはVLMに基づく説明報酬を導入し、モデルの自己生成した画像記述を忠実さと満足度で評価する。
推論のために、PeRL-VLは論理に富んだチェーン・オブ・シントデータに関するテキストのみの推論SFTステージを追加し、コヒーレンスと論理的一貫性を視覚と独立に強化する。
論文 参考訳(メタデータ) (2025-12-13T23:06:18Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。