論文の概要: Rectifying Shortcut Behaviors in Preference-based Reward Learning
- arxiv url: http://arxiv.org/abs/2510.19050v1
- Date: Tue, 21 Oct 2025 20:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.627695
- Title: Rectifying Shortcut Behaviors in Preference-based Reward Learning
- Title(参考訳): 選好型リワード学習におけるショートカット行動の定式化
- Authors: Wenqian Ye, Guangtao Zheng, Aidong Zhang,
- Abstract要約: 強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
- 参考スコア(独自算出の注目度): 46.09046818725698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning from human feedback, preference-based reward models play a central role in aligning large language models to human-aligned behavior. However, recent studies show that these models are prone to reward hacking and often fail to generalize well due to over-optimization. They achieve high reward scores by exploiting shortcuts, that is, exploiting spurious features (e.g., response verbosity, agreeable tone, or sycophancy) that correlate with human preference labels in the training data rather than genuinely reflecting the intended objectives. In this paper, instead of probing these issues one at a time, we take a broader view of the reward hacking problem as shortcut behaviors and introduce a principled yet flexible approach to mitigate shortcut behaviors in preference-based reward learning. Inspired by the invariant theory in the kernel perspective, we propose Preference-based Reward Invariance for Shortcut Mitigation (PRISM), which learns group-invariant kernels with feature maps in a closed-form learning objective. Experimental results in several benchmarks show that our method consistently improves the accuracy of the reward model on diverse out-of-distribution tasks and reduces the dependency on shortcuts in downstream policy models, establishing a robust framework for preference-based alignment.
- Abstract(参考訳): 人間のフィードバックからの強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
しかし、最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
彼らは、意図した目的を真に反映するのではなく、トレーニングデータ中の人間の嗜好ラベルと相関する急激な特徴(例えば、応答の冗長性、同意可能な音調、サイコファシー)を活用することで、高い報酬スコアを得る。
本稿では、これらの問題を一度に1つずつ調べるのではなく、報酬ハッキング問題をショートカット行動としてより広い視点で捉え、プライオリティベースの報酬学習におけるショートカット行動を軽減するための原則的かつ柔軟なアプローチを導入する。
カーネルの観点からの不変理論に着想を得て,グループ不変カーネルを閉形式学習対象とするグループ不変カーネルを学習するPreference-based Reward Invariance for Shortcut Mitigation (PRISM)を提案する。
いくつかのベンチマークによる実験結果から,本手法は多様な配当業務における報酬モデルの精度を一貫して改善し,下流ポリシーモデルにおけるショートカットへの依存性を低減し,嗜好に基づくアライメントのための堅牢な枠組みを確立した。
関連論文リスト
- Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models [6.472081755630166]
報酬の線形集約がいかにいくつかの脆弱性を示すかを示す。
本稿では,効用関数の経済理論にインスパイアされた報酬関数の変換を提案する。
Inada-transformationsでトレーニングしたモデルは、有害度を低くしながら、より有用であることを示す。
論文 参考訳(メタデータ) (2025-01-08T19:03:17Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。