論文の概要: Policy Teaching via Data Poisoning in Learning from Human Preferences
- arxiv url: http://arxiv.org/abs/2503.10228v1
- Date: Thu, 13 Mar 2025 10:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:56.390807
- Title: Policy Teaching via Data Poisoning in Learning from Human Preferences
- Title(参考訳): 人間の嗜好からの学習におけるデータポジショニングによる政策指導
- Authors: Andi Nika, Jonathan Nöther, Debmalya Mandal, Parameswaran Kamalaruban, Adish Singla, Goran Radanović,
- Abstract要約: 人間の嗜好から学習する際のデータ中毒攻撃について検討する。
我々は、嗜好データを合成することで、ターゲットポリシーを$pidagger$で教え/強化する問題について研究する。
- 参考スコア(独自算出の注目度): 24.645259298082436
- License:
- Abstract: We study data poisoning attacks in learning from human preferences. More specifically, we consider the problem of teaching/enforcing a target policy $\pi^\dagger$ by synthesizing preference data. We seek to understand the susceptibility of different preference-based learning paradigms to poisoned preference data by analyzing the number of samples required by the attacker to enforce $\pi^\dagger$. We first propose a general data poisoning formulation in learning from human preferences and then study it for two popular paradigms, namely: (a) reinforcement learning from human feedback (RLHF) that operates by learning a reward model using preferences; (b) direct preference optimization (DPO) that directly optimizes policy using preferences. We conduct a theoretical analysis of the effectiveness of data poisoning in a setting where the attacker is allowed to augment a pre-existing dataset and also study its special case where the attacker can synthesize the entire preference dataset from scratch. As our main results, we provide lower/upper bounds on the number of samples required to enforce $\pi^\dagger$. Finally, we discuss the implications of our results in terms of the susceptibility of these learning paradigms under such data poisoning attacks.
- Abstract(参考訳): 人間の嗜好から学習する際のデータ中毒攻撃について検討する。
具体的には、嗜好データを合成することで、ターゲットポリシーを$\pi^\dagger$で指導/強化する問題を考察する。
我々は、攻撃者が$\pi^\dagger$を強制するのに要するサンプル数を分析して、異なる嗜好に基づく学習パラダイムが有毒な嗜好データに対する感受性を理解することを目的とする。
まず、人間の嗜好から学習する際の一般的なデータ中毒の定式化を提案し、次に2つの一般的なパラダイムについて研究する。
(a)嗜好を用いた報酬モデル学習による人的フィードバックからの強化学習(RLHF)
(b)直接選好最適化(DPO)は、嗜好を用いてポリシーを直接最適化する。
我々は、攻撃者が既存のデータセットを拡張できるような環境でデータ中毒の有効性を理論的に分析し、攻撃者が選好データセット全体をスクラッチから合成できる特別なケースについて検討する。
主な結果として、$\pi^\dagger$を強制するために必要なサンプルの数について、より低い/上位のバウンダリを提供します。
最後に、このようなデータ中毒攻撃下での学習パラダイムの受容可能性の観点から、本研究の結果の意義について論じる。
関連論文リスト
- PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data [30.343186069189944]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデル(LM)を人間の価値観や嗜好と整合させる一般的な手法である。
RLHFはトレーニングデータとして多数の選好ペアを必要としており、スーパービジョン・ファインチューニングとリワードモデルの両方のトレーニングでよく使用される。
我々は、悪意あるアクターが、好みを害することによって、LM世代を操作できる範囲について研究する。
論文 参考訳(メタデータ) (2024-04-08T13:59:02Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Amplifying Membership Exposure via Data Poisoning [18.799570863203858]
本稿では,データ中毒の第3タイプについて検討し,良心的トレーニングサンプルのプライバシー漏洩リスクを高めることを目的とした。
そこで本研究では,対象クラスの加入者への露出を増幅するために,データ中毒攻撃のセットを提案する。
この結果から,提案手法は,テスト時間モデルの性能劣化を最小限に抑えることで,メンバーシップ推定精度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-01T13:52:25Z) - Lethal Dose Conjecture on Data Poisoning [122.83280749890078]
データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪ませる敵を考える。
本研究は, 致死線量導出法(Lethal Dose Conjecture)とよばれるデータ中毒の基礎について, 1つの予想を立証するものである。
論文 参考訳(メタデータ) (2022-08-05T17:53:59Z) - Debiasing Learning for Membership Inference Attacks Against Recommender
Systems [79.48353547307887]
学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦者システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
本稿では,4つの主要コンポーネントを持つリコメンダシステム(DL-MIA)フレームワークに対する,メンバシップ推論攻撃に対するバイアス学習を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:57:34Z) - Property Inference From Poisoning [15.105224455937025]
プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。
本研究では,モデルの情報漏洩を増大させることが目的とする中毒攻撃について検討する。
以上より,毒殺攻撃は情報漏洩を著しく促進し,敏感なアプリケーションにおいてより強力な脅威モデルと見なされるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-01-26T20:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。