Fugu-MT 論文翻訳(概要): On Symmetric Losses for Robust Policy Optimization with Noisy Preferences

論文の概要: On Symmetric Losses for Robust Policy Optimization with Noisy Preferences

arxiv url: http://arxiv.org/abs/2505.24709v1
Date: Fri, 30 May 2025 15:30:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:53.035973
Title: On Symmetric Losses for Robust Policy Optimization with Noisy Preferences
Title（参考訳）: 雑音を考慮したロバスト政策最適化のための対称性損失について
Authors: Soichiro Nishimori, Yu-Jie Zhang, Thanawat Lodkaew, Masashi Sugiyama,
Abstract要約: この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
参考スコア（独自算出の注目度）: 55.8615920580824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing policies based on human preferences is key to aligning language models with human intent. This work focuses on reward modeling, a core component in reinforcement learning from human feedback (RLHF), and offline preference optimization, such as direct preference optimization. Conventional approaches typically assume accurate annotations. However, real-world preference data often contains noise due to human errors or biases. We propose a principled framework for robust policy optimization under noisy preferences, viewing reward modeling as a classification problem. This allows us to leverage symmetric losses, known for their robustness to label noise in classification, leading to our Symmetric Preference Optimization (SymPO) method. We prove that symmetric losses enable successful policy optimization even under noisy labels, as the resulting reward remains rank-preserving -- a property sufficient for policy improvement. Experiments on synthetic and real-world tasks demonstrate the effectiveness of SymPO.
Abstract（参考訳）: 人間の好みに基づくポリシーの最適化は、言語モデルと人間の意図を一致させる鍵となる。この研究は、報酬モデリング、人間からのフィードバック(RLHF)からの強化学習のコアコンポーネント、直接選好最適化などのオフライン選好最適化に焦点を当てている。従来のアプローチは通常、正確なアノテーションを前提とします。しかし、現実世界の嗜好データには、ヒューマンエラーやバイアスによるノイズがしばしば含まれる。本稿では,ノイズの多い選択の下でのロバストなポリシー最適化のための基本的枠組みを提案し,報酬モデリングを分類問題として検討する。これにより、分類におけるノイズのラベル付けに頑健さで知られている対称的損失を活用でき、Symmetric Preference Optimization (SymPO) 法に繋がる。結果の報酬は、政策改善に十分な特性であるランク保存のままであり、ノイズラベルの下でも、対称的な損失が政策最適化を成功させることができることを証明します。合成および実世界のタスクの実験は、SymPOの有効性を実証している。

関連論文リスト

Mitigating Preference Hacking in Policy Optimization with Pessimism [32.58012040199723]
この研究は、人間からのフィードバック(RLHF)からの強化学習における過度な最適化の問題に取り組む。 RLHFは、Emphfixed preferenceデータセットに基づいてトレーニングされた報酬または選好モデルに依存しており、これらのモデルは、この選好データのサポート外の評価では信頼できない。本稿では,不確実性に直面した悲観的手法を用いて,過度な最適化に確実に頑健なRLHFの新たな悲観的目的を提案する。
論文参考訳（メタデータ） (2025-03-10T00:13:19Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。 MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文参考訳（メタデータ） (2023-12-27T06:34:54Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。