論文の概要: Distributional Preference Learning: Understanding and Accounting for
Hidden Context in RLHF
- arxiv url: http://arxiv.org/abs/2312.08358v1
- Date: Wed, 13 Dec 2023 18:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:23:01.003922
- Title: Distributional Preference Learning: Understanding and Accounting for
Hidden Context in RLHF
- Title(参考訳): 分布選好学習:RLHFにおける隠れコンテキストの理解と説明
- Authors: Anand Siththaranjan and Cassidy Laidlaw and Dylan Hadfield-Menell
- Abstract要約: 実際には、人間のフィードバックからの好みの学習は、隠れたコンテキストを持つ不完全なデータに依存する。
本研究では、人間のフィードバックからの強化学習を含む嗜好学習の標準的な応用が、隠れた文脈の上に暗黙的に集約されていることを示す。
隠れコンテキストをよりよく考慮するために,分布選好学習(DPL)と呼ばれる手法のクラスを導入する。
- 参考スコア(独自算出の注目度): 11.398009498073316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, preference learning from human feedback depends on incomplete
data with hidden context. Hidden context refers to data that affects the
feedback received, but which is not represented in the data used to train a
preference model. This captures common issues of data collection, such as
having human annotators with varied preferences, cognitive processes that
result in seemingly irrational behavior, and combining data labeled according
to different criteria. We prove that standard applications of preference
learning, including reinforcement learning from human feedback (RLHF),
implicitly aggregate over hidden contexts according to a well-known voting rule
called Borda count. We show this can produce counter-intuitive results that are
very different from other methods which implicitly aggregate via expected
utility. Furthermore, our analysis formalizes the way that preference learning
from users with diverse values tacitly implements a social choice function. A
key implication of this result is that annotators have an incentive to
misreport their preferences in order to influence the learned model, leading to
vulnerabilities in the deployment of RLHF. As a step towards mitigating these
problems, we introduce a class of methods called distributional preference
learning (DPL). DPL methods estimate a distribution of possible score values
for each alternative in order to better account for hidden context.
Experimental results indicate that applying DPL to RLHF for LLM chatbots
identifies hidden context in the data and significantly reduces subsequent
jailbreak vulnerability. Our code and data are available at
https://github.com/cassidylaidlaw/hidden-context
- Abstract(参考訳): 実際には、人間のフィードバックによる選好学習は、隠れたコンテキストを持つ不完全なデータに依存する。
隠れたコンテキストとは、受信したフィードバックに影響を与えるデータを指すが、嗜好モデルのトレーニングに使用されるデータには表現されない。
これは、人間のアノテータに様々な好みを持たせること、不合理な振る舞いをもたらす認知プロセス、異なる基準に従ってラベル付けされたデータの組み合わせなど、データ収集の一般的な問題を捉えている。
人間のフィードバックからの強化学習(RLHF)を含む嗜好学習の標準的な応用は、ボルダカウントと呼ばれるよく知られた投票規則に従って暗黙的に隠れた文脈を集約することを証明する。
これは、暗黙的に期待するユーティリティを介して集約される他のメソッドとは全く異なる直観的な結果を生み出すことができる。
さらに,多様な価値を持つユーザからの選好学習が社会的選択機能を実現する方法を定式化する。
この結果の重要な意味は、アノテータが学習モデルに影響を与えるために好みを誤って報告するインセンティブを持ち、RLHFのデプロイに脆弱性をもたらすことである。
これらの問題を緩和するためのステップとして,分布選好学習(DPL)と呼ばれる手法を導入する。
DPL法は、隠れたコンテキストをよりよく考慮するために、それぞれの選択肢に対して可能なスコア値の分布を推定する。
LLMチャットボットにDPLをRLHFに適用すると、データ中の隠れコンテキストが識別され、その後のジェイルブレイクの脆弱性が大幅に減少することを示す。
私たちのコードとデータはhttps://github.com/cassidylaidlaw/hidden-contextで利用可能です。
関連論文リスト
- Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Semi-supervised Batch Learning From Logged Data [24.826544828460158]
我々は,リスク最小化フレームワークを構築し,妥当性スコアへのアクセスも想定している。
本稿では,一部のサンプルにフィードバックが欠落している問題に対する学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T08:58:28Z) - Out-of-Scope Intent Detection with Self-Supervision and Discriminative
Training [20.242645823965145]
タスク指向対話システムにおいて、スコープ外インテント検出は実用上重要である。
本稿では,テストシナリオをシミュレートして,スコープ外インテント分類器をエンドツーエンドに学習する手法を提案する。
提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-16T08:17:18Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。