論文の概要: Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback
- arxiv url: http://arxiv.org/abs/2512.24818v2
- Date: Fri, 02 Jan 2026 04:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.774276
- Title: Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback
- Title(参考訳): 優先フィードバックによるゼロサムゲームにおける非正規化線形収束
- Authors: Shulun Chen, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du,
- Abstract要約: NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
- 参考スコア(独自算出の注目度): 50.89125374999765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences has proven effective for enhancing model capabilities, yet standard preference modeling using the Bradley-Terry model assumes transitivity, overlooking the inherent complexity of human population preferences. Nash learning from human feedback (NLHF) addresses this by framing non-transitive preferences as a two-player zero-sum game, where alignment reduces to finding the Nash equilibrium (NE). However, existing algorithms typically rely on regularization, incurring unavoidable bias when computing the duality gap in the original game. In this work, we provide the first convergence guarantee for Optimistic Multiplicative Weights Update ($\mathtt{OMWU}$) in NLHF, showing that it achieves last-iterate linear convergence after a burn-in phase whenever an NE with full support exists, with an instance-dependent linear convergence rate to the original NE, measured by duality gaps. Compared to prior results in Wei et al. (2020), we do not require the assumption of NE uniqueness. Our analysis identifies a novel marginal convergence behavior, where the probability of rarely played actions grows exponentially from exponentially small values, enabling exponentially better dependence on instance-dependent constants than prior results. Experiments corroborate the theoretical strengths of $\mathtt{OMWU}$ in both tabular and neural policy classes, demonstrating its potential for LLM applications.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の嗜好に適応させることは、モデルの能力を高めるのに有効であることが証明されているが、Bradley-Terryモデルを用いた標準的な嗜好モデリングは、人間の嗜好に固有の複雑さを見越して、推移性を前提としている。
人間のフィードバック(NLHF)からのナッシュラーニングは、非推移的な選好を2つのプレイヤーゼロサムゲームとしてフレーミングすることでこの問題に対処し、アライメントはナッシュ均衡(NE)の発見に還元される。
しかし、既存のアルゴリズムは典型的には正規化に依存しており、元のゲームの双対性ギャップを計算する際に避けられないバイアスを引き起こす。
本研究では,NLHF における最適乗算重み更新 (\mathtt{OMWU}$) に対する最初の収束保証を行い,NE の完全サポートが存在する場合のバーンインフェーズ後において,双対性ギャップによって測定された元の NE に対するインスタンス依存の線形収束率で最終点の線形収束を達成することを示す。
Wei et al (2020) の以前の結果と比較すると、NE の特異性の仮定は不要である。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増加し, 先行結果よりも指数関数的にインスタンス依存定数への依存性が向上する新たな限界収束挙動を同定する。
実験は、表とニューラルポリシーのクラスで$\mathtt{OMWU}$の理論的強みを相関させ、LLMの応用の可能性を示す。
関連論文リスト
- Accelerating Nash Learning from Human Feedback via Mirror Prox [36.04055906691423]
オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。
我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。
また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
論文 参考訳(メタデータ) (2025-05-26T09:17:32Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - The Power of Regularization in Solving Extensive-Form Games [28.043425786728157]
より弱い仮定かより強い収束保証を条件として,ゲームのファンクションペイオフの正規化に基づく,一連の新しいアルゴリズムを提案する。
我々の知る限り、これらは、非摂動EFGのNEを求める際に、最先端の平均収束率と整合しながら、CFR型アルゴリズムの最終的な収束結果を構成する。
論文 参考訳(メタデータ) (2022-06-19T22:10:38Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。
平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。
任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2020-06-16T20:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。