論文の概要: Fundamental Limits of Game-Theoretic LLM Alignment: Smith Consistency and Preference Matching
- arxiv url: http://arxiv.org/abs/2505.20627v1
- Date: Tue, 27 May 2025 02:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.345571
- Title: Fundamental Limits of Game-Theoretic LLM Alignment: Smith Consistency and Preference Matching
- Title(参考訳): ゲーム理論LLMアライメントの基本限界:スミス整合性と選好マッチング
- Authors: Zhekun Shi, Kaizhao Liu, Qi Long, Weijie J. Su, Jiancong Xiao,
- Abstract要約: ヒューマンフィードバックからのナッシュラーニング(Nash Learning from Human Feedback)は、学習をゼロサムゲームとしてモデル化することで、大きな言語モデルを人間の好みに合わせるためのフレームワークである。
本稿では,人選好に基づく配当選択が望ましいアライメント特性を得られるかを検討する。
- 参考スコア(独自算出の注目度): 23.0436612817548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nash Learning from Human Feedback is a game-theoretic framework for aligning large language models (LLMs) with human preferences by modeling learning as a two-player zero-sum game. However, using raw preference as the payoff in the game highly limits the potential of the game-theoretic LLM alignment framework. In this paper, we systematically study using what choices of payoff based on the pairwise human preferences can yield desirable alignment properties. We establish necessary and sufficient conditions for Condorcet consistency, diversity through mixed strategies, and Smith consistency. These results provide a theoretical foundation for the robustness of game-theoretic LLM alignment. Further, we show the impossibility of preference matching -- i.e., no smooth and learnable mappings of pairwise preferences can guarantee a unique Nash equilibrium that matches a target policy, even under standard assumptions like the Bradley-Terry-Luce model. This result highlights the fundamental limitation of game-theoretic LLM alignment.
- Abstract(参考訳): ヒューマンフィードバックからのナッシュラーニング(Nash Learning from Human Feedback)は、大きな言語モデル(LLM)と人間の好みを協調させるゲーム理論フレームワークである。
しかし、ゲームのペイオフとして生の好みを用いると、ゲーム理論のLLMアライメントフレームワークの可能性は非常に制限される。
本稿では,人選好に基づく配当選択が望ましいアライメント特性を得ることができるかを,系統的に検討する。
コンドルチェット整合性、混合戦略による多様性、スミス整合性のための必要かつ十分な条件を確立する。
これらの結果は、ゲーム理論的LLMアライメントの堅牢性に関する理論的基盤を提供する。
さらに、選好マッチングの不合理性、すなわち、ペアの選好の滑らかで学習可能なマッピングがなければ、ブラッドリー・テリー・リュックモデルのような標準的な仮定の下でも、目標ポリシーと一致するユニークなナッシュ均衡を保証できることを示す。
この結果はゲーム理論的LLMアライメントの基本的な制限を強調している。
関連論文リスト
- Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium [23.0436612817548]
確率論的選好モデルの下では、コンドルセットサイクルは確率が指数関数的に高速に収束して存在することを示す。
我々は、混合戦略に必要かつ十分な条件、すなわち、他のすべての人たちよりも好まれる応答が欠如していることを特定します。
統計的結果から得られた知見を利用して,NLHF と LLM を整合する Nash 平衡を求める新しい計算効率の高いアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-03-14T01:29:21Z) - Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment [29.197712664347794]
我々は,オリジナルゲームのNEに最終項目収束を達成できる新しいアプローチである磁気優先最適化(MPO)を導入する。
提案アルゴリズムは理論的に健全かつ実用的であることを保証するため,単純かつ効果的な実装を提案する。
論文 参考訳(メタデータ) (2024-10-22T05:51:34Z) - Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.060608983034705]
本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文 参考訳(メタデータ) (2024-06-15T09:30:20Z) - Aligners: Decoupling LLMs and Alignment [47.00002038331952]
大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。
そこで本稿では,LLM とアライメントを,任意の基準をアライメントするためのアライメントモデルのトレーニングによって分離することを提案する。
論文 参考訳(メタデータ) (2024-03-07T04:54:56Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。