論文の概要: Theoretical Tensions in RLHF: Reconciling Empirical Success with Inconsistencies in Social Choice Theory
- arxiv url: http://arxiv.org/abs/2506.12350v1
- Date: Sat, 14 Jun 2025 05:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.900253
- Title: Theoretical Tensions in RLHF: Reconciling Empirical Success with Inconsistencies in Social Choice Theory
- Title(参考訳): RLHFにおける理論的緊張--社会選択論における実証的成功と矛盾を再考する
- Authors: Jiancong Xiao, Zhekun Shi, Kaizhao Liu, Qi Long, Weijie J. Su,
- Abstract要約: 人間のフィードバックからの強化学習は、社会的選択論の基本的な公理にほとんど違反することが示されている。
本稿では,RLHFが2対の過半数とコンドルチェットの整合性を満足することを示す。
報酬モデリングの目的を少し変更することで、一般的な嗜好プロファイルの下でもペアの多数派やコンドルセットの一貫性を確保することができる。
- 参考スコア(独自算出の注目度): 23.043661281754794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its empirical success, Reinforcement Learning from Human Feedback (RLHF) has been shown to violate almost all the fundamental axioms in social choice theory -- such as majority consistency, pairwise majority consistency, and Condorcet consistency. This raises a foundational question: why does RLHF perform so well in practice if it fails these seemingly essential properties? In this paper, we resolve this paradox by showing that under mild and empirically plausible assumptions on the preference profile, RLHF does satisfy pairwise majority and Condorcet consistency. These assumptions are frequently satisfied in real-world alignment tasks, offering a theoretical explanation for RLHF's strong practical performance. Furthermore, we show that a slight modification to the reward modeling objective can ensure pairwise majority or Condorcet consistency even under general preference profiles, thereby improving the alignment process. Finally, we go beyond classical axioms in economic and social choice theory and introduce new alignment criteria -- preference matching, preference equivalence, and group preference matching -- that better reflect the goal of learning distributions over responses. We show that while RLHF satisfies the first two properties, it fails to satisfy the third. We conclude by discussing how future alignment methods may be designed to satisfy all three.
- Abstract(参考訳): 実証的な成功にもかかわらず、Reinforcement Learning from Human Feedback (RLHF) は、社会的選択論における基本的な公理(多数派一貫性、相互多数派一貫性、コンドルチェット整合性など)にほとんど違反することが示されている。
RLHFがこのような一見本質的な性質に失敗した場合、実際になぜうまく機能するのか?
本稿では、このパラドックスを、好みプロファイルの軽度かつ実証的に妥当な仮定の下で、RLHFがペアの多数派とコンドルチェットの整合性を満たすことを示し、解決する。
これらの仮定は実世界のアライメントタスクにおいてしばしば満足され、RLHFの強力な実用性能の理論的な説明を提供する。
さらに、報奨モデルの対象を少し修正することで、一般的な選好プロファイルの下でもペアの多数派やコンドルセットの整合性を確保することができ、アライメントプロセスを改善することができることを示す。
最後に、経済と社会的選択理論の古典的公理を超えて、反応よりも分布を学習するという目標を反映した新しいアライメント基準(嗜好整合、選好同値、グループ選好整合)を導入します。
RLHF は最初の 2 つの性質を満たすが、3 つの性質を満たすことができないことを示す。
これら3つをすべて満たすために,今後のアライメント手法がどう設計されるか,という議論から締めくくった。
関連論文リスト
- Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Axioms for AI Alignment from Human Feedback [44.51306968484829]
我々は、強力な公理保証を持つ報酬関数を学習するための新しいルールを開発する。
社会的選択の観点からの重要な革新は、我々の問題が線形構造を持っていることである。
論文 参考訳(メタデータ) (2024-05-23T16:29:29Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Online Iterative Reinforcement Learning from Human Feedback with General Preference Model [20.81421550138371]
本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Pushing the limits of fairness impossibility: Who's the fairest of them
all? [6.396013144017572]
3つの指標を最大限に満たすために,不合理定理の限界を押し上げる枠組みを提案する。
モデル性能を最小限に抑えつつ,各定義の公平性を両立できることを示す実験を行った。
論文 参考訳(メタデータ) (2022-08-24T22:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。