論文の概要: Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium
- arxiv url: http://arxiv.org/abs/2503.10990v1
- Date: Fri, 14 Mar 2025 01:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:12.049764
- Title: Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium
- Title(参考訳): ヒトの嗜好を考慮したLCMの統計的不可能性と可能性:Condorcet Paradox から Nash Equilibrium まで
- Authors: Kaizhao Liu, Qi Long, Zhekun Shi, Weijie J. Su, Jiancong Xiao,
- Abstract要約: 確率論的選好モデルの下では、コンドルセットサイクルは確率が指数関数的に高速に収束して存在することを示す。
我々は、混合戦略に必要かつ十分な条件、すなわち、他のすべての人たちよりも好まれる応答が欠如していることを特定します。
統計的結果から得られた知見を利用して,NLHF と LLM を整合する Nash 平衡を求める新しい計算効率の高いアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 23.0436612817548
- License:
- Abstract: Aligning large language models (LLMs) with diverse human preferences is critical for ensuring fairness and informed outcomes when deploying these models for decision-making. In this paper, we seek to uncover fundamental statistical limits concerning aligning LLMs with human preferences, with a focus on the probabilistic representation of human preferences and the preservation of diverse preferences in aligned LLMs. We first show that human preferences can be represented by a reward model if and only if the preference among LLM-generated responses is free of any Condorcet cycle. Moreover, we prove that Condorcet cycles exist with probability converging to one exponentially fast under a probabilistic preference model, thereby demonstrating the impossibility of fully aligning human preferences using reward-based approaches such as reinforcement learning from human feedback. Next, we explore the conditions under which LLMs would employ mixed strategies -- meaning they do not collapse to a single response -- when aligned in the limit using a non-reward-based approach, such as Nash learning from human feedback (NLHF). We identify a necessary and sufficient condition for mixed strategies: the absence of a response that is preferred over all others by a majority. As a blessing, we prove that this condition holds with high probability under the probabilistic preference model, thereby highlighting the statistical possibility of preserving minority preferences without explicit regularization in aligning LLMs. Finally, we leverage insights from our statistical results to design a novel, computationally efficient algorithm for finding Nash equilibria in aligning LLMs with NLHF. Our experiments show that Llama-3.2-1B, aligned with our algorithm, achieves a win rate of 60.55\% against the base model.
- Abstract(参考訳): 大きな言語モデル(LLM)を多種多様な人間の好みで調整することは、意思決定のためにこれらのモデルをデプロイする際の公平性と情報的結果を保証するために重要である。
本稿では、人間の嗜好の確率的表現と、協調したLLMにおける多様な嗜好の保存に着目し、LLMと人間の嗜好の整合性に関する基本的な統計的限界を明らかにすることを目的とする。
まず、LLM生成応答の嗜好がコンドルチェットサイクルを含まない場合にのみ、人間の嗜好が報酬モデルで表現できることを示す。
さらに,確率論的選好モデルの下では,コンドルチェットサイクルが指数関数的に高速に収束し,人間のフィードバックからの強化学習などの報酬に基づくアプローチを用いて,人間の選好を完全に整合させることが不可能であることを示す。
次に,人間のフィードバック(NLHF)からナッシュ学習(Nash Learning from Human feedback, NLHF)のような非逆ベースアプローチを用いて,LLMが混合戦略(つまり単一応答に崩壊しない)を採用する条件について検討する。
我々は、混合戦略に必要かつ十分な条件、すなわち、他のすべての人たちよりも好まれる応答が欠如していることを特定します。
祝福として、この条件は確率論的選好モデルの下で高い確率で成り立つことを証明し、LLMの整列において明示的な正則化を伴わずにマイノリティ選好を保存するという統計的可能性を強調した。
最後に, LLM と NLHF の整合性を見出すための新しい計算効率のアルゴリズムを設計するために, 統計的結果からの洞察を活用する。
実験の結果,Llama-3.2-1Bはベースモデルに対して60.55\%の勝利率が得られることがわかった。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Aligning Crowd Feedback via Distributional Preference Reward Modeling [28.754532173765686]
本研究では,大規模言語モデルと多様な人間の嗜好を一致させるために,DPRM(Distributedal Preference Reward Model)を提案する。
実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-15T07:29:43Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。