論文の概要: Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2503.08942v1
- Date: Tue, 11 Mar 2025 22:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:20.947965
- Title: Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback
- Title(参考訳): 外部優先最適化(EGPO):人間のフィードバックからのナッシュ学習における最終Iterate Convergenceを超えて
- Authors: Runlong Zhou, Maryam Fazel, Simon S. Du,
- Abstract要約: EGPO(Extragradient preference optimization)は、NLHFがKL正規化ゲームのNEへの最終次線形収束を達成するアルゴリズムである。
同数のエポックのトレーニングにおいて,EGPOがベースライン法よりも優れていることを示す実験的検討を行った。
- 参考スコア(独自算出の注目度): 46.7385883375784
- License:
- Abstract: Reinforcement learning from human feedback (RLHF) has become essential for improving language model capabilities, but traditional approaches rely on the assumption that human preferences follow a transitive Bradley-Terry model. This assumption fails to capture the non-transitive nature of populational human preferences. Nash learning from human feedback (NLHF), targeting non-transitive preferences, is a problem of computing the Nash equilibrium (NE) of the two-player constant-sum game defined by the human preference. We introduce Extragradient preference optimization (EGPO), a novel algorithm for NLHF achieving last-iterate linear convergence to the NE of KL-regularized games and polynomial convergence to the NE of original games, while being robust to noise. Unlike previous approaches that rely on nested optimization, we derive an equivalent implementation using gradients of an online variant of the identity preference optimization (IPO) loss, enabling more faithful implementation for neural networks. Our empirical evaluations demonstrate EGPO's superior performance over baseline methods when training for the same number of epochs, as measured by pairwise win-rates using the ground truth preference. These results validate both the theoretical strengths and practical advantages of EGPO for language model alignment with non-transitive human preferences.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は言語モデル能力の向上に欠かせないものとなっているが、従来のアプローチは人間の好みが過渡的なブラッドリー・テリーモデルに従うという仮定に依存している。
この仮定は、人口的人間の嗜好の非推移的な性質を捉えることに失敗する。
NLHF(Nash Learning from Human feedback, NLHF)は、人間の嗜好によって定義される2プレイヤー定数ゲームにおけるNash平衡(NE)を計算する問題である。
我々は,KL正規化ゲームのNEに終点線形収束を達成し,元のゲームのNEに多項式収束を達成し,ノイズに頑健なNLHFのための新しいアルゴリズムEGPOを導入する。
ネスト最適化に依存する従来のアプローチとは異なり、オンラインのアイデンティティ優先最適化(IPO)損失の勾配を用いた等価な実装を導出し、ニューラルネットワークのより忠実な実装を可能にします。
実験により, EGPOが同じエポック数のトレーニングを行う場合, ベースライン法よりも優れた性能を示した。
これらの結果は,言語モデルと非推移的人間の嗜好の整合性に対するEGPOの理論的強みと実用的優位性の両方を検証した。
関連論文リスト
- PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。
PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文 参考訳(メタデータ) (2025-02-06T18:09:00Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data [25.844968873581244]
Inverse-Q*はトークンレベルの強化学習を最適化することで従来のRL手法を超越する革新的なフレームワークである。
この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:43:32Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。