Fugu-MT 論文翻訳(概要): Accelerating Nash Learning from Human Feedback via Mirror Prox

論文の概要: Accelerating Nash Learning from Human Feedback via Mirror Prox

arxiv url: http://arxiv.org/abs/2505.19731v1
Date: Mon, 26 May 2025 09:17:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.315087
Title: Accelerating Nash Learning from Human Feedback via Mirror Prox
Title（参考訳）: ミラープロキシによるヒューマンフィードバックからのナッシュラーニングの高速化
Authors: Daniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov, Kashif Rasul, Michal Valko, Pierre Menard,
Abstract要約: オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
参考スコア（独自算出の注目度）: 36.04055906691423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional Reinforcement Learning from Human Feedback (RLHF) often relies on reward models, frequently assuming preference structures like the Bradley-Terry model, which may not accurately capture the complexities of real human preferences (e.g., intransitivity). Nash Learning from Human Feedback (NLHF) offers a more direct alternative by framing the problem as finding a Nash equilibrium of a game defined by these preferences. In this work, we introduce Nash Mirror Prox ($\mathtt{Nash-MP}$), an online NLHF algorithm that leverages the Mirror Prox optimization scheme to achieve fast and stable convergence to the Nash equilibrium. Our theoretical analysis establishes that Nash-MP exhibits last-iterate linear convergence towards the $\beta$-regularized Nash equilibrium. Specifically, we prove that the KL-divergence to the optimal policy decreases at a rate of order $(1+2\beta)^{-N/2}$, where $N$ is a number of preference queries. We further demonstrate last-iterate linear convergence for the exploitability gap and uniformly for the span semi-norm of log-probabilities, with all these rates being independent of the size of the action space. Furthermore, we propose and analyze an approximate version of Nash-MP where proximal steps are estimated using stochastic policy gradients, making the algorithm closer to applications. Finally, we detail a practical implementation strategy for fine-tuning large language models and present experiments that demonstrate its competitive performance and compatibility with existing methods.
Abstract（参考訳）: 従来のReinforcement Learning from Human Feedback (RLHF)は報酬モデルに依存しており、Bradley-Terryモデルのような好み構造を仮定することが多い。ヒューマンフィードバックからのナッシュラーニング(Nash Learning from Human Feedback, NLHF)は、より直接的な代替手段として、これらの嗜好によって定義されたゲームのナッシュ均衡を見つけるように、問題をフレーミングする。本研究では、Nash平衡への高速で安定した収束を実現するためにMirror Prox最適化スキームを活用するオンラインNLHFアルゴリズムであるNash Mirror Prox(\mathtt{Nash-MP}$)を紹介する。我々の理論的解析により、ナッシュ-MPは、$\beta$-regularized Nash 平衡に対して最終点の線形収束を示すことが証明された。具体的には、最適ポリシーに対するKL偏差が1+2\beta)^{-N/2}$の順序で減少することを証明する。さらに, 利用可能性ギャップと対数確率の半ノルムの均一性について, 作用空間の大きさに依存しない最終次線形収束を示す。さらに、確率的ポリシー勾配を用いて近似ステップを推定するNash-MPの近似バージョンを提案し、解析し、アルゴリズムをアプリケーションに近づける。最後に,大規模言語モデルを微調整するための実践的実装戦略と,既存の手法との競合性能と互換性を示す実験について述べる。

関連論文リスト

Multi-Step Consistency Models: Fast Generation with Theoretical Guarantees [15.366598179769918]
所定時刻の入力を逆軌道に沿った任意の点にマッピングできる整合モデルの理論的解析を行う。 Oleft(logleft(fracdvarepsilonright) $ iterations for a constant step size。我々は,スムーズかつ非スムーズな設定でも,小さな離散化ステップを用いて,正確な学習が実現可能であると結論付けた。
論文参考訳（メタデータ） (2025-05-02T06:50:46Z)
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文参考訳（メタデータ） (2025-02-24T05:24:52Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Analysis of Kernel Mirror Prox for Measure Optimization [4.6080589718744305]
我々は、MFNE(Mixed Functional Nash Equilibrium)と呼ばれる機能的サドル点最適化問題のクラスを統一したフレームワークで研究する。我々は,サドル点最適化力学を相互作用するFisher-Rao-RKHS勾配流としてモデル化する。このクラス MFNE 問題の無限次元設定において、KMP の統一収束解析を提供する。
論文参考訳（メタデータ） (2024-02-29T21:55:17Z)
Online Iterative Reinforcement Learning from Human Feedback with General Preference Model [20.81421550138371]
本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
論文参考訳（メタデータ） (2024-02-11T21:44:21Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。