論文の概要: Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning
- arxiv url: http://arxiv.org/abs/2506.13056v1
- Date: Mon, 16 Jun 2025 02:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.385934
- Title: Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning
- Title(参考訳): Metis-RISE: RLのインセンティブとSFTによるマルチモーダル推論モデル学習
- Authors: Haibo Qiu, Xiaohan Lan, Fanfan Liu, Xiaohu Sun, Delian Ruan, Peng Shi, Lin Ma,
- Abstract要約: マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
- 参考スコア(独自算出の注目度): 20.515599491717442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) have witnessed a surge in the development of advanced reasoning paradigms, which are now being integrated into multimodal large language models (MLLMs). However, existing approaches often fall short: methods solely employing reinforcement learning (RL) can struggle with sample inefficiency and activating entirely absent reasoning capabilities, while conventional pipelines that initiate with a cold-start supervised fine-tuning (SFT) phase before RL may restrict the model's exploratory capacity and face suboptimal convergence. In this work, we introduce \textbf{Metis-RISE} (\textbf{R}L \textbf{I}ncentivizes and \textbf{S}FT \textbf{E}nhances) for multimodal reasoning model learning. Unlike conventional approaches, Metis-RISE distinctively omits an initial SFT stage, beginning instead with an RL phase (e.g., using a Group Relative Policy Optimization variant) to incentivize and activate the model's latent reasoning capacity. Subsequently, the targeted SFT stage addresses two key challenges identified during RL: (1) \textit{inefficient trajectory sampling} for tasks where the model possesses but inconsistently applies correct reasoning, which we tackle using self-distilled reasoning trajectories from the RL model itself; and (2) \textit{fundamental capability absence}, which we address by injecting expert-augmented knowledge for prompts where the model entirely fails. This strategic application of RL for incentivization followed by SFT for enhancement forms the core of Metis-RISE, leading to two versions of our MLLMs (7B and 72B parameters). Evaluations on the OpenCompass Multimodal Reasoning Leaderboard demonstrate that both models achieve state-of-the-art performance among similar-sized models, with the 72B version ranking fourth overall.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、先進的な推論パラダイムの発展を目撃し、現在ではマルチモーダルな大規模言語モデル(MLLM)に統合されている。
しかし、従来のアプローチでは、強化学習(RL)のみを用いる手法は、サンプルの非効率性と完全に欠如した推論能力に苦しむが、従来のパイプラインでは、RLの前に冷間開始された教師付き微調整(SFT)フェーズで開始することで、モデルの探索能力と最適下限収束を制限できる。
本稿では,マルチモーダル推論モデル学習のための \textbf{Metis-RISE} (\textbf{R}L \textbf{I}ncentivizes および \textbf{S}FT \textbf{E}nhancess) を紹介する。
従来のアプローチとは異なり、Metis-RISE は RL フェーズ(例えば Group Relative Policy Optimization の変種)から始まる初期 SFT ステージを省略し、モデルの潜在推論能力のインセンティブと活性化を行う。
次に、対象SFTステージは、RLモデル自体から自己拡散的推論トラジェクトリを用いて、モデルが有するが一貫性のない正しい推論を適用するタスクに対する \textit{inefficient trajectory sample} と、モデルが完全に失敗した場合のエキスパート強化された知識を注入することによって対処する \textit{fundamental capabilities absence} の2つの重要な課題に対処する。
インセンティブ化のためのRLの戦略的応用とSFTによる拡張がMetis-RISEのコアとなり、MLLMの2つのバージョン(7Bと72Bのパラメータ)が導かれる。
OpenCompass Multimodal Reasoning Leaderboardの評価では、どちらのモデルも同様のサイズのモデルで最先端のパフォーマンスを達成しており、72Bバージョンは全体で第4位である。
関連論文リスト
- Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い
本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。
実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-28T13:21:38Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。