論文の概要: VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL
- arxiv url: http://arxiv.org/abs/2511.18902v1
- Date: Mon, 24 Nov 2025 08:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.122442
- Title: VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL
- Title(参考訳): VADE:マルチモーダルRLのオンラインサンプルレベル難易度推定による変数認識動的サンプリング
- Authors: Zengjie Hu, Jiantao Qiu, Tianyi Bai, Haojin Yang, Binhang Yuan, Qi Jing, Conghui He, Wentao Zhang,
- Abstract要約: GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
- 参考スコア(独自算出の注目度): 38.782188833641676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-based policy optimization methods like GRPO and GSPO have become standard for training multimodal models, leveraging group-wise rollouts and relative advantage estimation. However, they suffer from a critical \emph{gradient vanishing} problem when all responses within a group receive identical rewards, causing advantage estimates to collapse and training signals to diminish. Existing attempts to mitigate this issue fall into two paradigms: filtering-based and sampling-based methods. Filtering-based methods first generate rollouts broadly and then retroactively filter out uninformative groups, leading to substantial computational overhead. Sampling-based methods proactively select effective samples before rollout but rely on static criteria or prior dataset knowledge, lacking real-time adaptability. To address these issues, we propose \textbf{VADE}, a \textbf{V}ariance-\textbf{A}ware \textbf{D}ynamic sampling framework via online sample-level difficulty \textbf{E}stimation. Our framework integrates three key components: online sample-level difficulty estimation using Beta distributions, a Thompson sampler that maximizes information gain through the estimated correctness probability, and a two-scale prior decay mechanism that maintains robust estimation under policy evolution. This three components design enables VADE to dynamically select the most informative samples, thereby amplifying training signals while eliminating extra rollout costs. Extensive experiments on multimodal reasoning benchmarks show that VADE consistently outperforms strong baselines in both performance and sample efficiency, while achieving a dramatic reduction in computational overhead. More importantly, our framework can serves as a plug-and-play component to be seamlessly integrated into existing group-based RL algorithms. Code and models are available at https://VADE-RL.github.io.
- Abstract(参考訳): GRPOやGSPOのようなグループベースのポリシー最適化手法は、グループワイズロールアウトと相対的優位性推定を利用して、マルチモーダルモデルのトレーニングの標準となっている。
しかし、グループ内の全ての応答が同じ報酬を受け取り、有利な推定が崩壊し、訓練信号が減少するときに、臨界 \emph{gradient vanishing} 問題に悩まされる。
この問題を緩和しようとする既存の試みは、フィルタリングベースの方法とサンプリングベースの方法の2つのパラダイムに分類される。
フィルタリングに基づく手法は、まずロールアウトを広範に生成し、それから遡及的に非形式的なグループをフィルタリングし、かなりの計算オーバーヘッドをもたらす。
サンプリングベースのメソッドはロールアウト前に有効サンプルを積極的に選択するが、静的な基準やデータセットの知識に依存し、リアルタイム適応性に欠ける。
これらの問題に対処するために、オンラインサンプルレベルの難易度 \textbf{E}stimation を用いて、 \textbf{V}ariance-\textbf{A}ware \textbf{D}ynamic sample framework を提案する。
本フレームワークは,ベータ分布を用いたオンラインサンプルレベルの難易度推定,推定正しさ確率による情報ゲインを最大化するトンプソンサンプリング,および政策進化下でのロバストな評価を維持する2スケールの事前崩壊機構という,3つの重要な要素を統合した。
この3つのコンポーネントの設計により、VADEは最も情報性の高いサンプルを動的に選択でき、これにより、余分なロールアウトコストを排除しながら、トレーニングシグナルを増幅することができる。
マルチモーダル推論ベンチマークの大規模な実験により、VADEはパフォーマンスとサンプル効率の両方において、高いベースラインを一貫して上回り、計算オーバーヘッドの劇的な削減を実現している。
さらに重要なのは、既存のグループベースのRLアルゴリズムにシームレスに統合されるプラグイン・アンド・プレイコンポーネントとして機能することです。
コードとモデルはhttps://VADE-RL.github.io.comで公開されている。
関連論文リスト
- Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View [10.95044674432639]
マルチモーダル推論のための2つの難解なサンプリング手法を提案する。
本稿では, プログレッシブ・イメージ・セマンティック・マスキング(PISM)が, 画像の系統的劣化を通じてサンプル硬さを定量化することを示す。
また、相互モダリティ・アテンション・バランス(CMAB)が相互の相互作用の複雑さを評価することも示している。
論文 参考訳(メタデータ) (2025-11-10T05:31:59Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Rethinking Sampling Strategies for Unsupervised Person Re-identification [59.47536050785886]
我々は,同じフレームワーク下での各種サンプリング戦略と損失関数のパフォーマンス差の理由を解析した。
グループサンプリングを提案し、同じクラスのサンプルをグループに集める。
Market-1501、DukeMTMC-reID、MSMT17の実験は、グループサンプリングが最先端の手法に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。