論文の概要: VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision
- arxiv url: http://arxiv.org/abs/2508.03058v1
- Date: Tue, 05 Aug 2025 04:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.770113
- Title: VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision
- Title(参考訳): VRPO:雑音下でのロバストRLトレーニングにおける価値モデリングの再考
- Authors: Dingwei Zhu, Shihan Dou, Zhiheng Xi, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui,
- Abstract要約: 不安定な信号を吸収し、より信頼性の高い優位性推定を可能にすることにより、雑音の緩和に強い値モデルが不可欠であることを示す。
ノイズの多い監督下での堅牢なPPOトレーニングのための価値中心のフレームワークであるVRPOを提案する。
- 参考スコア(独自算出の注目度): 29.848085169124605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) often suffers from noisy or imperfect reward supervision in real-world settings, which undermines policy stability and generalization. Such noise may cause models to lose attention on key words during advantage estimation. While prior work focuses on reward denoising or filtering poor data, it often overlooks the critical role of the value model in policy optimization. In this work, we show that a strong value model is essential for mitigating noise by absorbing unstable signals and enabling more reliable advantage estimation. We propose VRPO, a value-centric framework for robust PPO training under noisy supervision. VRPO combines two core designs: (1) an auxiliary loss guided by entropy and perplexity from a frozen language model, and (2) a variational information bottleneck. These mechanisms enhance the value model's ability to filter out noise and capture key words from the context during advantage estimation, transforming it from a passive predictor into an active regulator of noise. Experiments on math reasoning, science QA, and multi-turn dialogue, under both rule-based and model-based noisy rewards, show that VRPO consistently outperforms PPO and GRPO baselines. Our findings underscore the often-overlooked importance of the value model in RLHF and offer a principled and practical approach to robust policy optimization in noisy real-world environments.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、しばしば現実の環境においてノイズや不完全な報酬の監督に悩まされ、政策の安定性と一般化を損なう。
このようなノイズは、モデルが有利な推定中にキーワードに注意をそらす可能性がある。
以前の作業では、粗悪なデータの評価やフィルタリングに重点を置いているが、政策最適化における価値モデルの重要な役割を見落としていることが多い。
本研究では、不安定な信号を吸収し、より信頼性の高い優位性推定を可能にすることにより、雑音の緩和に強い値モデルが不可欠であることを示す。
ノイズの多い監督下での堅牢なPPOトレーニングのための価値中心のフレームワークであるVRPOを提案する。
VRPOは,(1)エントロピーとパープレキシティによって導かれる補助的損失,(2)変動情報ボトルネックの2つのコア設計を組み合わせる。
これらのメカニズムは、ノイズをフィルタリングし、利点推定中にコンテキストからキーワードをキャプチャし、受動的予測器からノイズのアクティブレギュレータに変換する、バリューモデルの能力を高める。
ルールベースとモデルベースの両方で、数学推論、科学QA、マルチターン対話の実験は、VRPOがPPOとGRPOのベースラインを一貫して上回っていることを示している。
我々の研究結果は、RLHFにおける価値モデルの重要性を過小評価し、ノイズの多い実環境におけるロバストな政策最適化に原則的で実践的なアプローチを提供する。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。