論文の概要: From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training
- arxiv url: http://arxiv.org/abs/2511.07738v1
- Date: Wed, 12 Nov 2025 01:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.453962
- Title: From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training
- Title(参考訳): 探査から爆発へ:2段階エントロピーRLVRによる耐雑音MLLMトレーニング
- Authors: Donglai Xu, Hongzheng Yang, Yuzhi Zhao, Pingping Zhang, Jinpeng Chen, Wenao Ma, Zhijian Hou, Mengyang Wu, Xiaolei Li, Senkang Hu, Ziyi Guan, Jason Chun Lok Li, Lai Man Po,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は高品質なラベル付きデータに依存している。
既存の教師なしRLVR法は、純粋なエントロピー最小化を含む、誤ったラベルに過度に適合する。
RLVRのための2段階のトークンレベルのエントロピー最適化手法を提案する。
- 参考スコア(独自算出の注目度): 38.8378349968766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) for Multimodal Large Language Models (MLLMs) is highly dependent on high-quality labeled data, which is often scarce and prone to substantial annotation noise in real-world scenarios. Existing unsupervised RLVR methods, including pure entropy minimization, can overfit to incorrect labels and limit the crucial reward ranking signal for Group-Relative Policy Optimization (GRPO). To address these challenges and enhance noise tolerance, we propose a novel two-stage, token-level entropy optimization method for RLVR. This approach dynamically guides the model from exploration to exploitation during training. In the initial exploration phase, token-level entropy maximization promotes diverse and stochastic output generation, serving as a strong regularizer that prevents premature convergence to noisy labels and ensures sufficient intra-group variation, which enables more reliable reward gradient estimation in GRPO. As training progresses, the method transitions into the exploitation phase, where token-level entropy minimization encourages the model to produce confident and deterministic outputs, thereby consolidating acquired knowledge and refining prediction accuracy. Empirically, across three MLLM backbones - Qwen2-VL-2B, Qwen2-VL-7B, and Qwen2.5-VL-3B - spanning diverse noise settings and multiple tasks, our phased strategy consistently outperforms prior approaches by unifying and enhancing external, internal, and entropy-based methods, delivering robust and superior performance across the board.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)のためのRLVR(Reinforcement Learning with Verifiable Rewards)は、高品質なラベル付きデータに大きく依存する。
既存の教師なしRLVR手法は、純粋なエントロピーの最小化を含む、ラベルの誤りに適応し、グループ相対政策最適化(GRPO)の重要な報酬ランキング信号を制限することができる。
これらの課題に対処し、耐雑音性を高めるために、RLVRのための新しい2段階のトークンレベルのエントロピー最適化法を提案する。
このアプローチは、トレーニング中の探索から搾取までモデルを動的にガイドする。
最初の探索段階では、トークンレベルのエントロピー最大化は多様かつ確率的な出力生成を促進し、ノイズラベルへの早期収束を防止し、グループ内変動を十分に保証し、GRPOにおけるより信頼性の高い報酬勾配推定を可能にする強力な正則化器として機能する。
トレーニングが進むにつれて、トークンレベルのエントロピー最小化がモデルに自信と決定論的アウトプットを生成し、取得した知識を集約し、予測精度を精査する。
実験的に、3つのMLLMバックボーン(Qwen2-VL-2B、Qwen2-VL-7B、Qwen2.5-VL-3B)にまたがって、様々なノイズ設定と複数のタスクにまたがって、当社のフェーズド戦略は、外部、内部、エントロピーベースのメソッドを統一・拡張し、ボード全体で堅牢で優れたパフォーマンスを提供することによって、従来のアプローチよりも一貫して優れています。
関連論文リスト
- CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。