論文の概要: SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning
- arxiv url: http://arxiv.org/abs/2510.16416v1
- Date: Sat, 18 Oct 2025 09:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.988336
- Title: SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning
- Title(参考訳): SSL4RL:視覚言語推論の本質的リワードとしての自己教師型学習の再考
- Authors: Xiaojun Guo, Runyu Zhou, Yifei Wang, Qi Zhang, Chenheng Zhang, Stefanie Jegelka, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin, Yisen Wang,
- Abstract要約: SSL4RLは、自己教師付き学習タスクをRLベースの微調整のための検証可能な報酬の源として活用する、新しいフレームワークである。
提案手法では,イメージローテーションの予測やマスク付きパッチの再構築といったSSLの目的を,高密度で自動的な報酬信号に変換する。
実験の結果、SSL4RLは視覚中心の推論ベンチマークと視覚言語推論ベンチマークの両方のパフォーマンスを大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 88.9014727048442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown remarkable abilities by integrating large language models with visual inputs. However, they often fail to utilize visual evidence adequately, either depending on linguistic priors in vision-centric tasks or resorting to textual shortcuts during reasoning. Although reinforcement learning (RL) can align models with desired behaviors, its application to VLMs has been hindered by the lack of scalable and reliable reward mechanisms. To overcome this challenge, we propose SSL4RL, a novel framework that leverages self-supervised learning (SSL) tasks as a source of verifiable rewards for RL-based fine-tuning. Our approach reformulates SSL objectives-such as predicting image rotation or reconstructing masked patches-into dense, automatic reward signals, eliminating the need for human preference data or unreliable AI evaluators. Experiments show that SSL4RL substantially improves performance on both vision-centric and vision-language reasoning benchmarks. Furthermore, through systematic ablations, we identify key factors-such as task difficulty, model scale, and semantic alignment with the target domain-that influence the effectiveness of SSL4RL tasks, offering new design principles for future work. We also demonstrate the framework's generality by applying it to graph learning, where it yields significant gains. SSL4RL establishes a versatile and effective paradigm for aligning multimodal models using verifiable, self-supervised objectives.
- Abstract(参考訳): 視覚言語モデル(VLM)は、大きな言語モデルと視覚入力を統合することで、顕著な能力を示している。
しかし、視覚中心のタスクにおける言語的前提に依存するか、推論中にテキストのショートカットに頼るかによって、視覚的証拠を適切に活用できないことがしばしばある。
強化学習(RL)は、モデルと望ましい振る舞いを一致させることができるが、そのVLMへの適用は、スケーラブルで信頼性の高い報酬機構の欠如によって妨げられている。
この課題を克服するために,自己教師付き学習(SSL)タスクを活用する新しいフレームワークであるSSL4RLを提案する。
提案手法では,画像回転の予測やマスク付きパッチの再構築などSSLの目的を再構築し,人間の嗜好データや信頼できないAI評価装置の必要性を解消する。
実験の結果、SSL4RLは視覚中心の推論ベンチマークと視覚言語推論ベンチマークの両方のパフォーマンスを大幅に改善することが示された。
さらに,課題の難易度,モデルスケール,ターゲットドメインとのセマンティックアライメントといった重要な要素を体系的に定義することで,SSL4RLタスクの有効性に影響を与え,今後の作業に新たな設計原則を提供する。
また,グラフ学習に適用することで,フレームワークの汎用性を実証する。
SSL4RLは、検証可能な自己教師対象を用いてマルチモーダルモデルを整列するための汎用的で効果的なパラダイムを確立する。
関連論文リスト
- Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models [33.78309915588303]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を引き出すのに非常に有効であることが証明されている。
視覚言語モデル(VLM)の知覚能力と推論能力を両立させる2段階強化学習フレームワークを提案する。
提案した2段階強化学習プロセスの後,視覚言語モデルであるPeBR-R1を得た。
論文 参考訳(メタデータ) (2025-09-16T12:51:11Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [96.5899286619008]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。