論文の概要: VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08837v1
- Date: Thu, 10 Apr 2025 17:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:40.562615
- Title: VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
- Title(参考訳): VL-Rethinker:強化学習による視覚言語モデルの自己回帰のインセンティブ
- Authors: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen,
- Abstract要約: GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。
本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
- 参考スコア(独自算出の注目度): 55.97950660659051
- License:
- Abstract: Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.
- Abstract(参考訳): 近年、GPT-o1やDeepSeek-R1のようなゆっくり考えられたシステムは、明示的なリフレクションによって課題を解決する大きな可能性を示している。
様々な数学と科学のベンチマークにおいて、GPT-4oのような最高の高速思考モデルよりも大幅に優れていた。
しかし、それらのマルチモーダル推論能力は、高速思考モデルと同等である。
例えば、MathVista、MathVerse、MathVisionのようなベンチマークでのGPT-o1のパフォーマンスは、高速思考モデルに似ている。
本稿では,(蒸留に頼らずに)強化学習を用いて,視覚言語モデルの遅い思考能力を高めることを目的としている。
まず,SSR(Selective Sample Replay)と呼ばれる新しい手法を用いてGRPOアルゴリズムを適用し,その利点を解消する。
このアプローチは強い性能をもたらすが、結果として得られたRL学習モデルは限定的な自己回帰または自己検証を示す。
RLトレーニングの初期ロールアウトの最後に,テキストの再考トリガを付加し,自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
これら2つの手法を組み合わせることで、我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させる。
VL-Rethinkerはまた、MMMU-Pro、EMMA、MEGA-Benchといった複数の分野のベンチマークでオープンソースSoTAを実現し、GPT-o1とのギャップを狭める。
関連論文リスト
- Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models [42.70951894754312]
遅い思考機構を大きな言語モデルに統合することは、Level 2 AGI Reasonersにとって有望な方法である。
トレーニングと推論の両方において,LLMにバックトラック機能を持たせる自己追跡機構を提案する。
このメカニズムは推論能力を高めるだけでなく、スロー思考のプロセスを自己改善を通じて高速思考に変換することで効率も向上する。
論文 参考訳(メタデータ) (2025-02-06T08:52:43Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Efficient Training of Large Vision Models via Advanced Automated Progressive Learning [96.71646528053651]
我々は、LVM(Large Vision Models)の効率的なトレーニングのための高度な自動プログレッシブラーニング(AutoProg)フレームワークを提案する。
我々はAutoProg-Zeroを導入し、新しいゼロショットフリーズスケジュールサーチによりAutoProgフレームワークを拡張した。
実験の結果、AutoProgはImageNetでViTの事前トレーニングを最大1.85倍加速し、拡散モデルの微調整を最大2.86倍加速する。
論文 参考訳(メタデータ) (2024-09-06T16:24:24Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。