論文の概要: Robust Preference Optimization: Aligning Language Models with Noisy Preference Feedback
- arxiv url: http://arxiv.org/abs/2509.24159v1
- Date: Mon, 29 Sep 2025 01:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.670841
- Title: Robust Preference Optimization: Aligning Language Models with Noisy Preference Feedback
- Title(参考訳): ロバストな選好最適化:雑音の多い選好フィードバックを持つ言語モデルの調整
- Authors: Xiaoyang Cao, Zelai Xu, Mo Guang, Kaiwen Long, Michiel A. Bakker, Yu Wang, Chao Yu,
- Abstract要約: 本稿では、アライメント法を改善するために、Robust Preference Optimization (RPO)を導入する。
RPOは、各ラベルの正しさの後方確率を推測するために、期待最大化(EM)アルゴリズムを用いる。
我々の実験は、RPOがメタフレームワークとして有効であることを示し、4つの最先端アライメントアルゴリズムを一貫して強化した。
- 参考スコア(独自算出の注目度): 7.1259212876994695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard human preference-based alignment methods, such as Reinforcement Learning from Human Feedback (RLHF), are a cornerstone technology for aligning Large Language Models (LLMs) with human values. However, these methods are all underpinned by a critical, yet flawed assumption: human preferences are homogeneous (representing a single, unified preference) and the collected data is noiseless (free from error). In reality, neither is true since human preference is pluralistic and annotators can make mistakes. This creates a discrepancy between the recorded data and the ground-truth preferences, which can misguide the model and degrade its performance. To address this challenge, we introduce Robust Preference Optimization (RPO). RPO employs an Expectation-Maximization (EM) algorithm to infer the posterior probability of each label's correctness, which is used to adaptively re-weigh each data point in the training loss to mitigate noise. We further generalize this approach by establishing a theoretical link between arbitrary preference losses and their corresponding probabilistic models. This generalization enables the systematic transformation of existing alignment algorithms into their robust counterparts, elevating RPO from a specific algorithm to a meta-framework for robust preference alignment. Theoretically, we prove that under the condition of a perfectly calibrated model, RPO is guaranteed to converge to the true noise level of the dataset. Our experiments demonstrate RPO's effectiveness as a meta-framework, consistently enhancing four state-of-the-art alignment algorithms (DPO, IPO, SimPO, and CPO). When applied to Mistral and Llama 3 models, the RPO-enhanced methods achieve substantial win rate gains on AlpacaEval 2 and Arena-Hard, with improvements of up to 7.0% and 5.4%, respectively.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)のような人間の嗜好に基づくアライメント手法は、大規模言語モデル(LLM)と人間の価値を整合させるための基礎技術である。
人間の選好は均質であり(単一で統一された選好を表す)、収集されたデータは(エラーのない)ノイズ無しである。
実際には、人間の好みは多元的であり、アノテータは間違いを犯す可能性があるため、どちらも事実ではない。
これにより、記録されたデータと地味の嗜好の相違が生じ、モデルが誤導され、性能が低下する可能性がある。
この課題に対処するために、我々はRobust Preference Optimization (RPO)を紹介する。
RPOは、各ラベルの正しさの後方確率を推定するために期待最大化(EM)アルゴリズムを使用し、トレーニング損失における各データポイントを適応的に再検討してノイズを緩和する。
任意の選好損失とそれに対応する確率モデルとの理論的リンクを確立することで、このアプローチをさらに一般化する。
この一般化により、既存のアライメントアルゴリズムをロバストなアライメントに体系的に変換することができ、RPOを特定のアルゴリズムからメタフレームワークに高め、ロバストなリライメントアライメントを実現する。
理論的には、完全に校正されたモデルの下では、RPOはデータセットの真のノイズレベルに収束することが保証される。
我々の実験は、RPOがメタフレームワークとして有効であることを示し、4つの最先端アライメントアルゴリズム(DPO、IPO、SimPO、CPO)を一貫して強化した。
Mistral 3 モデルと Llama 3 モデルに適用すると、RPO強化方式はAlpacaEval 2 と Arena-Hard でそれぞれ7.0%と5.4%の改善を達成している。
関連論文リスト
- On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。