論文の概要: Upcycled and Merged MoE Reward Model for Mitigating Reward Hacking
- arxiv url: http://arxiv.org/abs/2512.00724v1
- Date: Sun, 30 Nov 2025 04:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.383463
- Title: Upcycled and Merged MoE Reward Model for Mitigating Reward Hacking
- Title(参考訳): リサイクルおよびマージしたMoEリワードモデルによるリワードハッキングの軽減
- Authors: Lingling Fu,
- Abstract要約: 本稿では,RLHF報酬モデルのロバスト性および効率性を向上させるために,MoE報酬モデルとアップサイクルとマージする手法を提案する。
我々の研究は、RLHF報酬モデルのロバスト性および効率性を改善するために、MoE構造をアップサイクルとマージする可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models play a critical role in Reinforcement Learning from Human Feedback (RLHF) by assessing the consistency between generated outputs and human preferences. However, conventional reward models are prone to reward hacking or over-optimization, where the policy exploits shortcut patterns to obtain high reward scores that do not reflect true human preference. Although Mixture-of-Experts (MoE)-based reward models can enhance discriminative capability, they typically introduce substantial computational overhead. To address these challenges, we propose an upcycle and merge MoE reward modeling approach. We first upcycle a dense reward model into a MoE architecture, where a shared expert captures general knowledge, while normal experts specialize in instruction-specific patterns. We then apply routing-weight normalization and merge experts back into a dense model through a learnable weight-averaging mechanism, preserving performance gains while significantly reducing inference cost. Experimental results demonstrate that our method effectively mitigates reward hacking across various model scales. Our work highlights the potential of upcycle and merge MoE structures for improving both robustness and efficiency of RLHF reward models.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) において、リワードモデルは、生成された出力と人間の嗜好の一貫性を評価することで重要な役割を果たす。
しかし、従来の報酬モデルはハッキングや過度に最適化される傾向にあり、このポリシーはショートカットパターンを利用して真の人間の好みを反映しない高い報酬スコアを得る。
Mixture-of-Experts (MoE) ベースの報酬モデルは差別能力を高めることができるが、それらは典型的にはかなりの計算オーバーヘッドをもたらす。
これらの課題に対処するため、我々は、MoE報酬モデリングアプローチのアップサイクルとマージを提案する。
まず高密度の報酬モデルをMoEアーキテクチャにリサイクルし、共有専門家が一般的な知識をキャプチャし、通常の専門家が命令固有のパターンを専門とする。
次に、ルーティングウェイト正規化を適用し、学習可能な重み付け機構を通じて専門家を密集モデルにマージし、性能向上を保ちながら、推論コストを大幅に削減する。
実験により,本手法は様々なモデルスケールでの報酬ハッキングを効果的に軽減することを示した。
我々の研究は、RLHF報酬モデルのロバスト性および効率性を改善するために、MoE構造をアップサイクルとマージする可能性を強調した。
関連論文リスト
- Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。
ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。
政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。
我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文 参考訳(メタデータ) (2025-08-07T17:53:56Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。