Fugu-MT 論文翻訳(概要): R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

論文の概要: R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

arxiv url: http://arxiv.org/abs/2503.05132v2
Date: Mon, 10 Mar 2025 01:52:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 13:36:29.452282
Title: R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model
Title（参考訳）: R1-Zeroの2B非SFTモデルによる視覚的推論における「アハモーメント」
Authors: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh,
Abstract要約: 非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
参考スコア（独自算出の注目度）: 70.77691645678804
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the "aha moment", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying reinforcement learning directly on the SAT dataset, our model achieves 59.47% accuracy on CVBench, outperforming the base model by approximately ~30% and exceeding both SFT setting by ~2%. In addition, we share our failed attempts and insights in attempting to achieve R1-like reasoning using RL with instruct models. aiming to shed light on the challenges involved. Our key observations include: (1) applying RL on instruct model often results in trivial reasoning trajectories, and (2) naive length reward are ineffective in eliciting reasoning capabilities. The project code is available at https://github.com/turningpoint-ai/VisualThinker-R1-Zero
Abstract（参考訳）: 近年、DeepSeek R1は、モデルが自己回帰を示し、訓練中に応答長が増加する「aha moment」を特徴とする、単純な規則に基づくインセンティブによる強化学習が、大規模言語モデルにおける複雑な推論の自律的発達を可能にすることを実証した。しかし、この成功をマルチモーダルな推論にまで拡張しようとする試みは、しばしばこれらの重要な特徴を再現できなかった。本報告では,ノンSFT2Bモデルのみを用いたマルチモーダル推論において,これらの創発的特性の再現に成功した最初の例を示す。 Qwen2-VL-2BからSATデータセットに直接強化学習を適用し、CVBench上で59.47%の精度でベースモデルを約30%上回り、SFT設定を約2%上回った。さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。課題に光を当てることを目指していました 1) 指示モデルにRLを適用すると、しばしば自明な推論軌道が得られ、(2) ナイーブ長の報酬は推論能力を引き出すのに効果がない。プロジェクトのコードはhttps://github.com/turningpoint-ai/VisualThinker-R1-Zeroで公開されている。

関連論文リスト

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。 GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文参考訳（メタデータ） (2025-07-03T17:44:55Z)
Resa: Transparent Reasoning Models via SAEs [14.617192915344349]
SAE-Tuningは、新規で効率的なスパースオートエンコーダチューニング手順によって訓練された1.5B推論モデルのファミリーである。 SAE-Tuningは、RL訓練後の特定のベースモデルに適用される前に、RL訓練後の推論性能の97%以上を維持している。 AIME24では43.33%のPass@1、AMC23では90%のPass@1などの推論性能を約1ドルで実現している。
論文参考訳（メタデータ） (2025-06-11T17:44:01Z)
Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文参考訳（メタデータ） (2025-06-02T06:54:29Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-05T06:11:12Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。 SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文参考訳（メタデータ） (2025-04-10T16:54:05Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild [46.25416990387885]
ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。 LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
論文参考訳（メタデータ） (2025-03-24T17:06:10Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
LR${}^{2}$Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems [7.379503137362718]
我々はLong-chain Reflective Reasoning capabilities of Large Language Models (LLMs)を評価するために設計された新しいベンチマークLR$2$Benchを紹介する。実験結果から,DeepSeek-R1やOpenAI o1-previewのような先進的な推論モデルでさえ,LR$2$Benchのタスクと競合することが明らかとなった。
論文参考訳（メタデータ） (2025-02-25T04:51:17Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Xmodel-2 Technical Report [4.0069773933776665]
Xmodel-2は、推論タスク用に特別に設計された大きな言語モデルである。トレーニング効率と安定性を最大化するために、MiniCPMのWSD学習率スケジューラを使用している。 Xmodel-2は、訓練コストを低く抑えながら、複雑な推論やエージェントベースのタスクにおいて最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-27T13:32:10Z)
A Case Study of Web App Coding with OpenAI Reasoning Models [1.7268889851975326]
我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。 o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
論文参考訳（メタデータ） (2024-09-19T06:58:02Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。