論文の概要: Learning Self-Correction in Vision-Language Models via Rollout Augmentation
- arxiv url: http://arxiv.org/abs/2602.08503v1
- Date: Mon, 09 Feb 2026 10:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.179543
- Title: Learning Self-Correction in Vision-Language Models via Rollout Augmentation
- Title(参考訳): ロールアウト強化による視覚言語モデルにおける自己補正学習
- Authors: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang,
- Abstract要約: 視覚言語モデル(VLM)における推論問題の解決には自己補正が不可欠である
既存の強化学習法(RL)は、効果的な自己補正行動が稀に現れるため、学習に苦慮している。
本稿では,高密度自己補正例を合成するRLロールアウト拡張フレームワークOctopusを提案する。
我々は,制御可能な自己補正機能を備えた推論型VLMであるOctopus-8Bを紹介する。
- 参考スコア(独自算出の注目度): 25.49118301476432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only $0.72\times$ training time per step.
- Abstract(参考訳): 自己補正は、視覚言語モデル(VLM)における複雑な推論問題の解決に不可欠である。
しかし、既存の強化学習法(RL)は、効果的な自己補正行動が稀に現れ、学習信号が極めて疎いため、学習に苦慮している。
この課題に対処するために,既存のロールアウトを組み換えることで,高密度自己補正例を合成するRLロールアウト拡張フレームワークである,修正専用ロールアウト(Octopus)を提案する。
この拡張により、ロールアウト再利用によるサンプル効率が向上し、バランスの取れた監視を通じてRL最適化が安定化される。
さらに,自己補正を直接的な推論から切り離し,信号の衝突を回避し,両方の動作を効果的に学習できる応答マスキング戦略を導入する。
これに基づいて,制御可能な自己補正機能を備えたVLMであるOctopus-8Bを導入する。
7つのベンチマークで、オープンソースのVLM間でSoTAのパフォーマンスを達成し、最高のRLVRベースラインを1.0スコアで上回り、ステップ当たりのトレーニング時間としてわずか0.72\timesしか必要としない。
関連論文リスト
- Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Each Prompt Matters: Scaling Reinforcement Learning Without Wasting Rollouts on Hundred-Billion-Scale MoE [16.58714489761542]
提案するCompassMax-V3-Thinkingは,1つの原理に基づいて構築された新しいRLフレームワークでトレーニングされた100億規模のMoE推論モデルである。
これらの課題を克服するために、いくつかの統一されたイノベーションを導入します。
結果として得られるモデルは、内部評価と公開評価の両方で強力なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-12-08T16:57:43Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。