論文の概要: What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis
- arxiv url: http://arxiv.org/abs/2602.12395v1
- Date: Thu, 12 Feb 2026 20:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.747282
- Title: What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis
- Title(参考訳): RLはビジュアル推論に何を改善するか? フランケンシュタイン・スタイル解析
- Authors: Xirui Li, Ming Li, Tianyi Zhou,
- Abstract要約: 計算報酬による強化学習は、視覚言語モデルにおける視覚的推論を促進するための訓練後の標準的な段階となっている。
エンドツーエンドのベンチマークでは、複数の要因が明確化され、特定のスキルに改善を加えることが難しくなる。
本研究では, (i) 因果探索による関数的局所化, (ii) パラメータ比較による更新特性, (iii) モデルマージによる転送可能性テストを含むフランケンシュタイン型解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.904569857346605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with verifiable rewards has become a standard post-training stage for boosting visual reasoning in vision-language models, yet it remains unclear what capabilities RL actually improves compared with supervised fine-tuning as cold-start initialization (IN). End-to-end benchmark gains conflate multiple factors, making it difficult to attribute improvements to specific skills. To bridge the gap, we propose a Frankenstein-style analysis framework including: (i) functional localization via causal probing; (ii) update characterization via parameter comparison; and (iii) transferability test via model merging. Instead, RL induces a consistent inference-time shift primarily in mid-to-late layers, and these mid-to-late refinements are both transferable (via merging) and necessary (via freezing) for RL gains. Overall, our results suggest that RL's reliable contribution in visual reasoning is not a uniform enhancement of visual perception, but a systematic refinement of mid-to-late transformer computation that improves vision-to-reasoning alignment and reasoning performance, highlighting the limitations of benchmark-only evaluation for understanding multimodal reasoning improvements.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RL)は、視覚言語モデルにおける視覚的推論を促進するための訓練後の標準段階となっているが、冷間開始初期化(IN)としての教師付き微調整と比較して、実際にRLが改善する能力は、まだ不明である。
エンドツーエンドのベンチマークでは、複数の要因が明確化され、特定のスキルに改善を加えることが難しくなる。
ギャップを埋めるために,フランケンシュタイン型解析フレームワークを提案する。
(i)因果探究による機能的局在
(二)パラメータ比較による特徴付けの更新、及び
三 モデルマージによる伝達性試験
代わりにRLは、主に中間層から後期層への一貫した推論時間シフトを誘導し、これらの中間層から後期層への改良は、(融解によって)転送可能であり、RLゲインに必要な(凍結を介して)必要である。
全体として,RLの視覚的推論への信頼性の高い貢献は,視覚知覚の統一的な向上ではなく,視覚と推論のアライメントと推論性能の向上を図り,マルチモーダル推論の改善を理解するためのベンチマークのみの評価の限界を強調した,中間から後期へのトランスフォーマー計算の体系的な改善を示唆している。
関連論文リスト
- Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [26.835266813794316]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。