論文の概要: SSL-R1: Self-Supervised Visual Reinforcement Post-Training for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.20705v1
- Date: Wed, 22 Apr 2026 15:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.206379
- Title: SSL-R1: Self-Supervised Visual Reinforcement Post-Training for Multimodal Large Language Models
- Title(参考訳): SSL-R1: マルチモーダルな大規模言語モデルのための自己監督型ビジュアル強化後のトレーニング
- Authors: Jiahao Xie, Alessio Tonioni, Nathalie Rauschmayr, Federico Tombari, Bernt Schiele,
- Abstract要約: SSL-R1は、画像から直接検証可能な報酬を導き出す、汎用的な自己教師型RLフレームワークである。
我々は、広く使われているSSLタスクを、RL後トレーニングのための検証可能な視覚パズルのセットに再構成する。
- 参考スコア(独自算出の注目度): 88.62912181680413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) with verifiable rewards (RLVR) has demonstrated the great potential of enhancing the reasoning abilities in multimodal large language models (MLLMs). However, the reliance on language-centric priors and expensive manual annotations prevents MLLMs' intrinsic visual understanding and scalable reward designs. In this work, we introduce SSL-R1, a generic self-supervised RL framework that derives verifiable rewards directly from images. To this end, we revisit self-supervised learning (SSL) in visual domains and reformulate widely-used SSL tasks into a set of verifiable visual puzzles for RL post-training, requiring neither human nor external model supervision. Training MLLMs on these tasks substantially improves their performance on multimodal understanding and reasoning benchmarks, highlighting the potential of leveraging vision-centric self-supervised tasks for MLLM post-training. We think this work will provide useful experience in devising effective self-supervised verifiable rewards to enable RL at scale. Project page: https://github.com/Jiahao000/SSL-R1.
- Abstract(参考訳): 検証可能な報酬(RLVR)を持つ強化学習(RL)は,マルチモーダル大言語モデル(MLLM)における推論能力を高める大きな可能性を示している。
しかし、言語中心の先行と高価な手作業によるアノテーションへの依存は、MLLMの固有の視覚的理解とスケーラブルな報酬設計を妨げる。
本稿では,画像から直接検証可能な報酬を導出する汎用的な自己教師型RLフレームワークであるSSL-R1を紹介する。
この目的のために、視覚領域における自己教師あり学習(SSL)を再考し、広く使われているSSLタスクをRL後トレーニングのための検証可能な視覚パズルの集合に再構成する。
これらのタスクにおけるMLLMのトレーニングは、マルチモーダル理解と推論ベンチマークの性能を大幅に向上させ、MLLMポストトレーニングに視覚中心の自己管理タスクを活用する可能性を強調している。
この研究は、RLを大規模に活用するための効果的な自己教師型検証報酬を考案する上で有用な経験を提供するだろう。
プロジェクトページ:https://github.com/Jiahao000/SSL-R1。
関連論文リスト
- Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning [88.9014727048442]
SSL4RLは、自己教師付き学習タスクをRLベースの微調整のための検証可能な報酬の源として活用する、新しいフレームワークである。
提案手法では,イメージローテーションの予測やマスク付きパッチの再構築といったSSLの目的を,高密度で自動的な報酬信号に変換する。
実験の結果、SSL4RLは視覚中心の推論ベンチマークと視覚言語推論ベンチマークの両方のパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-18T09:22:40Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - RLSF: Fine-tuning LLMs via Symbolic Feedback [11.407319705797242]
大規模言語モデル(LLM)はAIを変えてきたが、ドメイン固有の推論と論理的アライメントを必要とするタスクにしばしば苦労している。
従来の微調整手法は、私たちにとって利用可能な膨大な量の記号的ドメイン知識を活用できない。
本稿では,新しい微調整パラダイムであるシンボリックフィードバック(RLSF)による強化学習を紹介する。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。