Fugu-MT 論文翻訳(概要): VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

論文の概要: VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

arxiv url: http://arxiv.org/abs/2504.07615v2
Date: Mon, 14 Apr 2025 15:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 12:11:13.031032
Title: VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
Title（参考訳）: VLM-R1:安定かつ一般化可能なR1型大型ビジョンランゲージモデル
Authors: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao,
Abstract要約: 最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。 VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
参考スコア（独自算出の注目度）: 29.524164786422368
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs' performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the "OD aha moment", the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1
Abstract（参考訳）: 最近、DeepSeek R1は、強化学習(RL)が、単純で効果的な設計により、大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。 R1の中核は規則に基づく報酬の定式化(英語版)にあり、これは厳密で安定な報酬計算を可能にするために決定論的基礎的答えを持つタスクを利用する。視覚領域でも同様に、広範囲の視覚的理解タスクが、本質的に明確に定義された接地真実アノテーションを備えていることを観察する。この性質により、ルールベースの報酬機構と自然に互換性がある。本研究では,視覚的推論能力の向上を目的とした視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。この目的のために,汎用視覚言語タスクにおけるVLMの性能向上のために,RLを利用する専用フレームワークであるVLM-R1を開発した。このフレームワークを用いて、視覚領域にRLを適用する可能性をさらに検討する。実験結果から,RLモデルが視覚的理解タスク上での競争性能を提供するだけでなく,一般化能力においてスーパービジョンファインチューニング(SFT)を上回ることが示唆された。さらに、オブジェクト検出における報酬ハッキングの存在、"OD aha moment"の出現、トレーニングデータ品質の影響、異なるモデルサイズでのRLのスケーリング挙動など、注目すべき知見を網羅的に明らかにする。これらの分析を通じて、強化学習が視覚言語モデルの能力を高めることの理解を深めることを目指しており、我々の発見とオープンソースコントリビューションが視覚言語コミュニティの継続的な進歩を支援することを願っている。私たちのコードとモデルはhttps://github.com/om-ai-lab/VLM-R1で公開されています。

関連論文リスト

Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文参考訳（メタデータ） (2025-04-03T13:53:28Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文参考訳（メタデータ） (2025-03-23T10:21:14Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文参考訳（メタデータ） (2023-12-14T18:06:17Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。