論文の概要: Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
- arxiv url: http://arxiv.org/abs/2511.19504v1
- Date: Sun, 23 Nov 2025 20:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.0511
- Title: Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
- Title(参考訳): ポジション: 完全なAIアライメントの複雑さ - RLHFトリレンマの形式化
- Authors: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary,
- Abstract要約: RLHF(Reinforcement from Human Feedback)は、大規模な言語モデルの整合に広く使われている。
私たちはこのトリレンマを形式化する: アライメント・トリレンマ(Alignment Trilemma: No Epsilon-representativeness of various human values)。
我々のフレームワークは、嗜好の崩壊、梅毒症、系統的バイアス増幅などの病態を統一的に説明する。
- 参考スコア(独自算出の注目度): 16.505918019260964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、大規模な言語モデルの整合化に広く使用されているが、実践者は永続的なパズルに直面している。
我々はこの緊張をアライメント・トリレンマとして定式化し、RLHFシステムは同時に達成できない
(i)多様な人間の価値観にまたがるエプシロン表現性
(II) サンプルおよび計算複雑性における多項式トラクタビリティ、及び
三 敵対的摂動及び分布変化に対するデルタロス性
統計的学習理論とロバスト最適化を統合した複雑性理論解析により、グローバルな人口に対する代表性 (epsilon <= 0.01) とロバスト性 (delta <= 0.001) の両方を達成するためには、文脈次元において超ポリノミカルなオメガ(2^{d_context}) 演算が必要であることを証明した。
現在のRLHF実装はこのトリレンマを代表性を犠牲にして解決し、同種アノテータプールから10^3--10^4サンプルのみを収集し、真のグローバル表現には10^7--10^8サンプルが必要であることを示した。
我々のフレームワークは、好みの崩壊、梅毒症、系統的バイアス増幅など、文書化されたRLHFの病態について統一的な説明を提供する。
我々は、アライメント要件の戦略的緩和を通じて、これらの基本的なトレードオフをナビゲートするための具体的な方向で結論付ける。
関連論文リスト
- Bifidelity Karhunen-Loève Expansion Surrogate with Active Learning for Random Fields [0.4899818550820576]
本稿では、不確実な入力条件下で、フィールド値の利子(QoIs)に対する二元性カルフネン・ローブ拡張(KLE)サロゲートモデルを提案する。
我々は,サロゲートの一般化誤差に基づいて,新しいHF評価を適応的に選択する能動的学習戦略を形成する。
新しいHFサンプルは、高いサロゲート誤差の領域をターゲットとして、期待される改善基準を最大化することによって取得される。
論文 参考訳(メタデータ) (2025-11-05T04:14:44Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - On The Global Convergence Of Online RLHF With Neural Parametrization [36.239015146313136]
Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値を結びつけることを目的としている。
RLHFは、教師付き微調整、報酬学習、政策学習を含む3段階のプロセスである。
本稿では、パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し、この問題を解決するための一階法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:35Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - GAR: Generalized Autoregression for Multi-Fidelity Fusion [16.464126364802283]
一般化自己回帰(GAR)は、低忠実度(高速だが不正確な)と高忠実度(スローだが正確な)シミュレーションの結果を組み合わせるために提案される。
ガーは任意の次元出力と任意の多面体データ構造に対処し、多面体融合の需要を満たすことができる。
Gar は SOTA 法を高いマージン(RMSE の最大 6 倍の改善)で一貫して上回り、高忠実度トレーニングサンプルはわずか2 つしかない。
論文 参考訳(メタデータ) (2023-01-13T19:10:25Z) - DeepHAM: A Global Solution Method for Heterogeneous Agent Models with
Aggregate Shocks [9.088303226909277]
ヘテロジニアスエージェントモデル(DeepHAM$)のための,効率よく,信頼性が高く,解釈可能なグローバルソリューション法である$textitDeep学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-29T03:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。