論文の概要: R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
- arxiv url: http://arxiv.org/abs/2503.05132v2
- Date: Mon, 10 Mar 2025 01:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:56.902054
- Title: R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
- Title(参考訳): R1-Zeroの2B非SFTモデルによる視覚的推論における「アハモーメント」
- Authors: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh,
- Abstract要約: 非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
- 参考スコア(独自算出の注目度): 70.77691645678804
- License:
- Abstract: Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the "aha moment", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying reinforcement learning directly on the SAT dataset, our model achieves 59.47% accuracy on CVBench, outperforming the base model by approximately ~30% and exceeding both SFT setting by ~2%. In addition, we share our failed attempts and insights in attempting to achieve R1-like reasoning using RL with instruct models. aiming to shed light on the challenges involved. Our key observations include: (1) applying RL on instruct model often results in trivial reasoning trajectories, and (2) naive length reward are ineffective in eliciting reasoning capabilities. The project code is available at https://github.com/turningpoint-ai/VisualThinker-R1-Zero
- Abstract(参考訳): 近年、DeepSeek R1は、モデルが自己回帰を示し、訓練中に応答長が増加する「aha moment」を特徴とする、単純な規則に基づくインセンティブによる強化学習が、大規模言語モデルにおける複雑な推論の自律的発達を可能にすることを実証した。
しかし、この成功をマルチモーダルな推論にまで拡張しようとする試みは、しばしばこれらの重要な特徴を再現できなかった。
本報告では,ノンSFT2Bモデルのみを用いたマルチモーダル推論において,これらの創発的特性の再現に成功した最初の例を示す。
Qwen2-VL-2BからSATデータセットに直接強化学習を適用し、CVBench上で59.47%の精度でベースモデルを約30%上回り、SFT設定を約2%上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
課題に光を当てることを目指していました
1) 指示モデルにRLを適用すると、しばしば自明な推論軌道が得られ、(2) ナイーブ長の報酬は推論能力を引き出すのに効果がない。
プロジェクトのコードはhttps://github.com/turningpoint-ai/VisualThinker-R1-Zeroで公開されている。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Xmodel-2 Technical Report [4.0069773933776665]
Xmodel-2は、推論タスク用に特別に設計された大きな言語モデルである。
トレーニング効率と安定性を最大化するために、MiniCPMのWSD学習率スケジューラを使用している。
Xmodel-2は、訓練コストを低く抑えながら、複雑な推論やエージェントベースのタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-27T13:32:10Z) - A Case Study of Web App Coding with OpenAI Reasoning Models [1.7268889851975326]
我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。
o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
論文 参考訳(メタデータ) (2024-09-19T06:58:02Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。