論文の概要: Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start
- arxiv url: http://arxiv.org/abs/2510.25801v1
- Date: Wed, 29 Oct 2025 03:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.496064
- Title: Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start
- Title(参考訳): Metis-SPECS: 自己蒸留選好型コールドスタートによるマルチモーダルラーニングの分離
- Authors: Kun Chen, Peng Shi, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao, Lin Ma,
- Abstract要約: ほとんどの代表的なパラダイムはコールドスタートから始まり、典型的には教師付き微調整(SFT)を使用する。
マルチモーダル学習を分離する自己蒸留型, 選好型コールドスタートフレームワークSPECSを提案する。
- 参考スコア(独自算出の注目度): 23.27048561248985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with verifiable rewards has recently catalyzed a wave of "MLLM-r1" approaches that bring RL to vision language models. Most representative paradigms begin with a cold start, typically employing supervised fine-tuning (SFT), to initialize the policy before RL. However, SFT-based cold start adopts the reasoning paradigm intertwined with task solution and output format, which may induce instruction-style overfitting, weakens out-of-distribution generalization, and ultimately affects downstream RL. We revisit the cold start along two views, its training method and data construction, and introduce the Generalization Factor (GF) coefficient to quantify the generalization capability under different methods. Our empirical study finds that preference-based training methods (e.g. DPO) generalizes better than SFT-based methods in cold start. Motivated by this, we propose SPECS-a Self-distilled, Preference-based Cold Start framework that decouples multimodal learning: (1) generates introspective preference data pairs via self-distillation, avoiding reliance on larger teachers or manual annotation; (2) performs preference-based training to learn, focusing on shallow, transferable surface-form criteria (format, structure, style) rather than memorizing content; and (3) hands off to RL with verifiable rewards for deep reasoning results. Experimental results across multiple multimodal benchmarks show that our decoupling learning framework yields consistent performance gains over strong baselines, improving MEGA-Bench by 4.1% and MathVista by 12.2%. Additional experiments indicate that SPECS contributes to reducing in-distribution "stuckness," improving exploration, stabilizing training, and raising the performance ceiling.
- Abstract(参考訳): 検証可能な報酬を持つ強化学習(RL)は、最近、視覚言語モデルにRLをもたらす"MLLM-r1"アプローチの波を触媒した。
ほとんどの代表的なパラダイムはコールドスタートから始まり、通常、RLの前にポリシーを初期化するために教師付き微調整(SFT)を使用する。
しかし、SFTベースのコールドスタートは、タスクソリューションと出力フォーマットに連動する推論パラダイムを採用しており、命令スタイルのオーバーフィッティングを誘発し、分布外一般化を弱め、最終的に下流RLに影響を及ぼす可能性がある。
本稿では,2つの視点,すなわちトレーニング手法とデータ構築について,寒冷開始点を再考するとともに,一般化係数(GF)係数を導入して,一般化能力を異なる手法で定量化する。
我々の経験的研究は、選好ベーストレーニング手法(例えばDPO)が冷間開始時のSFTベースの手法よりも一般化されていることを見出した。
そこで本研究では,(1)自己蒸留によるイントロスペクティブな選好データペアを生成し,より大きな教師や手動のアノテーションに依存しない,(2)コンテンツを記憶するよりも,浅い,伝達可能な表面形状の基準(形式,構造,スタイル)に焦点をあてて,学習のための選好ベースのトレーニングを行う,(3)深い推論結果に対する検証可能な報酬でRLに手を差し伸べる,マルチモーダル学習を分離するSPECS-a自己蒸留・選好型コールドスタートフレームワークを提案する。
複数のマルチモーダルベンチマークでの実験結果から、我々の分離学習フレームワークは、強いベースラインよりも一貫したパフォーマンス向上をもたらし、MEGA-Benchは4.1%改善し、MathVistaは12.2%向上した。
さらなる実験により、SPECSは、流通中の「悪さ」の低減、探索の改善、トレーニングの安定化、パフォーマンス天井の上昇に寄与していることが示された。
関連論文リスト
- ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning [20.442971494407896]
大規模言語モデル (LLM) は推論タスクにおいて顕著な進歩を遂げているが、スーパービジョンファインチューニング (SFT) と強化学習 (RL) の最適統合は依然として根本的な課題である。
本稿では,エントロピーを考慮した重み付け機構により,両方のファインチューニングパラダイムを統一する単一ステージ手法であるSupervised Reinforcement Fine-Tuning (SRFT)を提案する。
大規模な実験の結果、SRFTは平均精度59.1%に達し、5つの数学的推論ベンチマークでは0-RL法を9.0%上回り、3つのアウト・オブ・ディストリビューションベンチマークでは10.9%を上回った。
論文 参考訳(メタデータ) (2025-06-24T16:31:37Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。