論文の概要: On Symmetric Losses for Robust Policy Optimization with Noisy Preferences
- arxiv url: http://arxiv.org/abs/2505.24709v1
- Date: Fri, 30 May 2025 15:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.035973
- Title: On Symmetric Losses for Robust Policy Optimization with Noisy Preferences
- Title(参考訳): 雑音を考慮したロバスト政策最適化のための対称性損失について
- Authors: Soichiro Nishimori, Yu-Jie Zhang, Thanawat Lodkaew, Masashi Sugiyama,
- Abstract要約: この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
- 参考スコア(独自算出の注目度): 55.8615920580824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing policies based on human preferences is key to aligning language models with human intent. This work focuses on reward modeling, a core component in reinforcement learning from human feedback (RLHF), and offline preference optimization, such as direct preference optimization. Conventional approaches typically assume accurate annotations. However, real-world preference data often contains noise due to human errors or biases. We propose a principled framework for robust policy optimization under noisy preferences, viewing reward modeling as a classification problem. This allows us to leverage symmetric losses, known for their robustness to label noise in classification, leading to our Symmetric Preference Optimization (SymPO) method. We prove that symmetric losses enable successful policy optimization even under noisy labels, as the resulting reward remains rank-preserving -- a property sufficient for policy improvement. Experiments on synthetic and real-world tasks demonstrate the effectiveness of SymPO.
- Abstract(参考訳): 人間の好みに基づくポリシーの最適化は、言語モデルと人間の意図を一致させる鍵となる。
この研究は、報酬モデリング、人間からのフィードバック(RLHF)からの強化学習のコアコンポーネント、直接選好最適化などのオフライン選好最適化に焦点を当てている。
従来のアプローチは通常、正確なアノテーションを前提とします。
しかし、現実世界の嗜好データには、ヒューマンエラーやバイアスによるノイズがしばしば含まれる。
本稿では,ノイズの多い選択の下でのロバストなポリシー最適化のための基本的枠組みを提案し,報酬モデリングを分類問題として検討する。
これにより、分類におけるノイズのラベル付けに頑健さで知られている対称的損失を活用でき、Symmetric Preference Optimization (SymPO) 法に繋がる。
結果の報酬は、政策改善に十分な特性であるランク保存のままであり、ノイズラベルの下でも、対称的な損失が政策最適化を成功させることができることを証明します。
合成および実世界のタスクの実験は、SymPOの有効性を実証している。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。