論文の概要: Axioms for AI Alignment from Human Feedback
- arxiv url: http://arxiv.org/abs/2405.14758v2
- Date: Thu, 07 Nov 2024 15:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:35.813067
- Title: Axioms for AI Alignment from Human Feedback
- Title(参考訳): 人間のフィードバックからのAIアライメントの公理
- Authors: Luise Ge, Daniel Halpern, Evi Micha, Ariel D. Procaccia, Itai Shapira, Yevgeniy Vorobeychik, Junlin Wu,
- Abstract要約: 我々は、強力な公理保証を持つ報酬関数を学習するための新しいルールを開発する。
社会的選択の観点からの重要な革新は、我々の問題が線形構造を持っていることである。
- 参考スコア(独自算出の注目度): 44.51306968484829
- License:
- Abstract: In the context of reinforcement learning from human feedback (RLHF), the reward function is generally derived from maximum likelihood estimation of a random utility model based on pairwise comparisons made by humans. The problem of learning a reward function is one of preference aggregation that, we argue, largely falls within the scope of social choice theory. From this perspective, we can evaluate different aggregation methods via established axioms, examining whether these methods meet or fail well-known standards. We demonstrate that both the Bradley-Terry-Luce Model and its broad generalizations fail to meet basic axioms. In response, we develop novel rules for learning reward functions with strong axiomatic guarantees. A key innovation from the standpoint of social choice is that our problem has a linear structure, which greatly restricts the space of feasible rules and leads to a new paradigm that we call linear social choice.
- Abstract(参考訳): 人間からのフィードバック(RLHF)からの強化学習の文脈において、報酬関数は一般に、人間によるペア比較に基づくランダムユーティリティモデルの最大推定から導かれる。
報酬関数を学習する問題は、選好集約の1つであり、社会選択論の範囲内にあると我々は論じている。
この観点から、確立された公理を用いて異なるアグリゲーション手法を評価することができ、これらの手法がよく知られた基準を満たしているかどうかを調べることができる。
我々はBradley-Terry-Luceモデルとその広範な一般化の両方が基本公理を満たさないことを示した。
そこで我々は,強い公理的保証を持つ報酬関数を学習するための新しいルールを開発した。
社会的選択の観点からの大きな革新は、我々の問題には線形構造があり、実現可能なルールの空間を著しく制限し、私たちが線形社会選択と呼ぶ新しいパラダイムへと導くことである。
関連論文リスト
- Intuitions of Compromise: Utilitarianism vs. Contractualism [42.3322948655612]
我々は、社会的な意思決定の文脈において、グループ間での嗜好を集約するためにアルゴリズムを適用するパラダイムを使用している。
現在まで、バリューアグリゲーションに対する支配的なアプローチは実用的だが、私たちは契約者アルゴリズムが推奨するアグリゲーションを強く好んでいることに気付きました。
論文 参考訳(メタデータ) (2024-10-07T21:05:57Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Risk Measures and Upper Probabilities: Coherence and Stratification [7.88657961743755]
機械学習の数学的基礎として、古典的確率論のより豊かな代替を考察する。
スペクトルリスク測度、チョーケ積分、ローレンツノルムといった、強力で豊富な代替アグリゲーション汎函数について検討する。
我々は、この新しい不確実性に対するアプローチが、実践的な機械学習問題に取り組むのにどのように役立つかを実証的に示す。
論文 参考訳(メタデータ) (2022-06-07T11:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。