論文の概要: Accelerating Nash Learning from Human Feedback via Mirror Prox
- arxiv url: http://arxiv.org/abs/2505.19731v1
- Date: Mon, 26 May 2025 09:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.315087
- Title: Accelerating Nash Learning from Human Feedback via Mirror Prox
- Title(参考訳): ミラープロキシによるヒューマンフィードバックからのナッシュラーニングの高速化
- Authors: Daniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov, Kashif Rasul, Michal Valko, Pierre Menard,
- Abstract要約: オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。
我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。
また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
- 参考スコア(独自算出の注目度): 36.04055906691423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Reinforcement Learning from Human Feedback (RLHF) often relies on reward models, frequently assuming preference structures like the Bradley-Terry model, which may not accurately capture the complexities of real human preferences (e.g., intransitivity). Nash Learning from Human Feedback (NLHF) offers a more direct alternative by framing the problem as finding a Nash equilibrium of a game defined by these preferences. In this work, we introduce Nash Mirror Prox ($\mathtt{Nash-MP}$), an online NLHF algorithm that leverages the Mirror Prox optimization scheme to achieve fast and stable convergence to the Nash equilibrium. Our theoretical analysis establishes that Nash-MP exhibits last-iterate linear convergence towards the $\beta$-regularized Nash equilibrium. Specifically, we prove that the KL-divergence to the optimal policy decreases at a rate of order $(1+2\beta)^{-N/2}$, where $N$ is a number of preference queries. We further demonstrate last-iterate linear convergence for the exploitability gap and uniformly for the span semi-norm of log-probabilities, with all these rates being independent of the size of the action space. Furthermore, we propose and analyze an approximate version of Nash-MP where proximal steps are estimated using stochastic policy gradients, making the algorithm closer to applications. Finally, we detail a practical implementation strategy for fine-tuning large language models and present experiments that demonstrate its competitive performance and compatibility with existing methods.
- Abstract(参考訳): 従来のReinforcement Learning from Human Feedback (RLHF)は報酬モデルに依存しており、Bradley-Terryモデルのような好み構造を仮定することが多い。
ヒューマンフィードバックからのナッシュラーニング(Nash Learning from Human Feedback, NLHF)は、より直接的な代替手段として、これらの嗜好によって定義されたゲームのナッシュ均衡を見つけるように、問題をフレーミングする。
本研究では、Nash平衡への高速で安定した収束を実現するためにMirror Prox最適化スキームを活用するオンラインNLHFアルゴリズムであるNash Mirror Prox(\mathtt{Nash-MP}$)を紹介する。
我々の理論的解析により、ナッシュ-MPは、$\beta$-regularized Nash 平衡に対して最終点の線形収束を示すことが証明された。
具体的には、最適ポリシーに対するKL偏差が1+2\beta)^{-N/2}$の順序で減少することを証明する。
さらに, 利用可能性ギャップと対数確率の半ノルムの均一性について, 作用空間の大きさに依存しない最終次線形収束を示す。
さらに、確率的ポリシー勾配を用いて近似ステップを推定するNash-MPの近似バージョンを提案し、解析し、アルゴリズムをアプリケーションに近づける。
最後に,大規模言語モデルを微調整するための実践的実装戦略と,既存の手法との競合性能と互換性を示す実験について述べる。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Analysis of Kernel Mirror Prox for Measure Optimization [4.6080589718744305]
我々は、MFNE(Mixed Functional Nash Equilibrium)と呼ばれる機能的サドル点最適化問題のクラスを統一したフレームワークで研究する。
我々は,サドル点最適化力学を相互作用するFisher-Rao-RKHS勾配流としてモデル化する。
このクラス MFNE 問題の無限次元設定において、KMP の統一収束解析を提供する。
論文 参考訳(メタデータ) (2024-02-29T21:55:17Z) - Online Iterative Reinforcement Learning from Human Feedback with General Preference Model [20.81421550138371]
本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。