論文の概要: VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08837v1
- Date: Thu, 10 Apr 2025 17:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 05:25:38.132525
- Title: VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
- Title(参考訳): VL-Rethinker:強化学習による視覚言語モデルの自己回帰のインセンティブ
- Authors: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen,
- Abstract要約: GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。
本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
- 参考スコア(独自算出の注目度): 55.97950660659051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.
- Abstract(参考訳): 近年、GPT-o1やDeepSeek-R1のようなゆっくり考えられたシステムは、明示的なリフレクションによって課題を解決する大きな可能性を示している。
様々な数学と科学のベンチマークにおいて、GPT-4oのような最高の高速思考モデルよりも大幅に優れていた。
しかし、それらのマルチモーダル推論能力は、高速思考モデルと同等である。
例えば、MathVista、MathVerse、MathVisionのようなベンチマークでのGPT-o1のパフォーマンスは、高速思考モデルに似ている。
本稿では,(蒸留に頼らずに)強化学習を用いて,視覚言語モデルの遅い思考能力を高めることを目的としている。
まず,SSR(Selective Sample Replay)と呼ばれる新しい手法を用いてGRPOアルゴリズムを適用し,その利点を解消する。
このアプローチは強い性能をもたらすが、結果として得られたRL学習モデルは限定的な自己回帰または自己検証を示す。
RLトレーニングの初期ロールアウトの最後に,テキストの再考トリガを付加し,自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
これら2つの手法を組み合わせることで、我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させる。
VL-Rethinkerはまた、MMMU-Pro、EMMA、MEGA-Benchといった複数の分野のベンチマークでオープンソースSoTAを実現し、GPT-o1とのギャップを狭める。
関連論文リスト
- Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [8.665713419757061]
マルチモーダル大言語モデル(MLLM)のためのルールベース強化学習微調整(RFT)における思考過程について検討する。
まず,MLLM の思考を促進するために,検証可能な報酬を用いて分類のための CLS-RL を提案する。
実験の結果、CLS-RLはSFTを著しく上回り、"フリーランチ"の一般化効果が得られる(あるデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスを改善する)。
この明示的思考がRFTにとって常に必要であるかどうかを問う。明示的思考はRFTにとって不可欠である、という規則に従えば、単純な等式精度の報酬による思考の最小化を図りながら、No-Thinking-RLを導入する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models [42.70951894754312]
遅い思考機構を大きな言語モデルに統合することは、Level 2 AGI Reasonersにとって有望な方法である。
トレーニングと推論の両方において,LLMにバックトラック機能を持たせる自己追跡機構を提案する。
このメカニズムは推論能力を高めるだけでなく、スロー思考のプロセスを自己改善を通じて高速思考に変換することで効率も向上する。
論文 参考訳(メタデータ) (2025-02-06T08:52:43Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。