論文の概要: Multiplayer Nash Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.23102v1
- Date: Sat, 27 Sep 2025 04:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.039993
- Title: Multiplayer Nash Preference Optimization
- Title(参考訳): マルチプレイヤー・ナッシュ選好最適化
- Authors: Fang Wu, Xu Huang, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi,
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる標準パラダイムとして登場した。
最近の研究は、2人プレイのナッシュゲームとしてアライメントを再構築し、ナッシュの学習を人間のフィードバック(NLHF)から引き起こした。
マルチプレイヤーシステムにNLHFを一般化する新しいフレームワークであるMultiplayer Nash Preference Optimization (MNPO)を導入する。
- 参考スコア(独自算出の注目度): 79.15013211640566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has emerged as the standard paradigm for aligning large language models (LLMs) with human preferences. However, reward-based methods built on the Bradley-Terry assumption struggle to capture the non-transitive and heterogeneous nature of real-world preferences. To address this, recent studies have reframed alignment as a two-player Nash game, giving rise to Nash learning from human feedback (NLHF). While this perspective has inspired algorithms such as INPO, ONPO, and EGPO with strong theoretical and empirical guarantees, they remain fundamentally restricted to two-player interactions, creating a single-opponent bias that fails to capture the full complexity of realistic preference structures. In this work, we introduce Multiplayer Nash Preference Optimization (MNPO), a novel framework that generalizes NLHF to the multiplayer regime. It formulates alignment as an $n$-player game, where each policy competes against a population of opponents while being regularized toward a reference model. Our framework establishes well-defined Nash equilibria in multiplayer settings and extends the concept of duality gap to quantify approximation quality. We demonstrate that MNPO inherits the equilibrium guarantees of two-player methods while enabling richer competitive dynamics and improved coverage of diverse preference structures. Through comprehensive empirical evaluation, we show that MNPO consistently outperforms existing NLHF baselines on instruction-following benchmarks, achieving superior alignment quality under heterogeneous annotator conditions and mixed-policy evaluation scenarios. Together, these results establish MNPO as a principled and scalable framework for aligning LLMs with complex, non-transitive human preferences. Code is available at https://github.com/smiles724/MNPO.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる標準パラダイムとして登場した。
しかし、ブラッドリー・テリーの仮定に基づく報酬に基づく手法は、実世界の嗜好の非推移的で異質な性質を捉えるのに苦労する。
これを解決するために、近年の研究は2人プレイのナッシュゲームとしてアライメントを再構築し、ナッシュの学習を人間からのフィードバック(NLHF)から引き起こした。
この観点は、INPO、ONPO、EGPOなどのアルゴリズムに強い理論的および経験的な保証を与えているが、それらは基本的には2人のプレイヤーの相互作用に限られており、現実的な嗜好構造の完全な複雑さを捉えるのに失敗する単対バイアスを生み出している。
本研究では,NLHFをマルチプレイヤーシステムに一般化する新しいフレームワークであるMNPOを紹介する。
このゲームは$n$-playerゲームとしてアライメントを定式化し、各ポリシーは参照モデルに向けて正規化されながら、相手の集団と競合する。
本フレームワークは,マルチプレイヤー設定におけるNash平衡をよく定義し,近似品質を定量化するための双対性ギャップの概念を拡張している。
我々は,MNPOがよりリッチな競合力学を実現し,多様な選好構造の網羅性を向上しつつ,二プレーヤ方式の平衡保証を継承することを実証した。
総合的な経験的評価を通じて、MNPOは命令追従ベンチマークにおいて既存のNLHFベースラインを一貫して上回り、異種アノテータ条件下でのアライメント品質と混合ポリティクス評価シナリオにおいて優れたアライメント品質を達成することを示す。
これらの結果は、MNPOをLLMを複雑で非推移的な人間の嗜好と整合させるための原則的かつスケーラブルなフレームワークとして確立する。
コードはhttps://github.com/smiles724/MNPOで入手できる。
関連論文リスト
- Fundamental Limits of Game-Theoretic LLM Alignment: Smith Consistency and Preference Matching [23.0436612817548]
ヒューマンフィードバックからのナッシュラーニング(Nash Learning from Human Feedback)は、学習をゼロサムゲームとしてモデル化することで、大きな言語モデルを人間の好みに合わせるためのフレームワークである。
本稿では,人選好に基づく配当選択が望ましいアライメント特性を得られるかを検討する。
論文 参考訳(メタデータ) (2025-05-27T02:07:35Z) - Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせることに成功している。
DPOのような一般的な手法は高い性能を示してきたが、彼らは言語モデルとの相互作用を帯域幅の問題として捉えている。
本稿では,アライメント問題を2プレイヤー定数マルコフゲームとしてモデル化することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。