論文の概要: Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14677v1
- Date: Tue, 20 May 2025 17:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.667666
- Title: Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning
- Title(参考訳): Visionary-R1:強化学習による視覚推論におけるショートカットの緩和
- Authors: Jiaer Xia, Yuhang Zang, Peng Gao, Yixuan Li, Kaiyang Zhou,
- Abstract要約: 我々は視覚言語モデル(VLM)を訓練し、強化学習と視覚質問応答ペアを通して画像データに基づく推論を行う。
我々のモデルであるVisionary-R1は、複数の視覚的推論ベンチマークにおいて、強力なマルチモーダルモデルよりも優れています。
- 参考スコア(独自算出の注目度): 41.59815187158526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM -- by prompting the model to produce a reasoning chain before providing an answer -- can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.
- Abstract(参考訳): 汎用推論能力の学習は、AIにおける長年の課題だった。
DeepSeek-R1のような大規模言語モデル(LLM)の最近の研究は、GRPOのような強化学習技術によって、事前学習されたLLMが単純な質問応答ペアを使って推論能力を開発することができることを示した。
本稿では,視覚言語モデル(VLM)を訓練し,強化学習と視覚質問応答ペアを用いて画像データに基づく推論を行う。
この結果から,VLMに強化学習を適用すれば,解答を提示する前に推論連鎖を生成させるだけで,簡単な質問からショートカットを作成でき,不明瞭なデータ分布をまたいで一般化する能力が低下する可能性が示唆された。
ショートカット学習を緩和する鍵は、推論に先立って画像の解釈を促すことであると我々は主張する。
そこで我々は,まず画像の詳細なキャプションを生成し,その後に広範囲な推論チェーンを構築することによって,キャプション・推論出力形式に従うようにモデルを訓練する。
273K CoT-free visual question-anwer pairsでトレーニングを行い、強化学習のみを用いて、GPT-4o、Claude3.5-Sonnet、Gemini-1.5-Proなどの強力なマルチモーダルモデルよりも優れた性能を示す。
関連論文リスト
- Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。