論文の概要: Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data
- arxiv url: http://arxiv.org/abs/2404.05530v2
- Date: Tue, 6 Aug 2024 14:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:02:36.765958
- Title: Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data
- Title(参考訳): ベスト・オブ・フェノム: 選好データを注入してRLHFを攻撃
- Authors: Tim Baumgärtner, Yang Gao, Dana Alon, Donald Metzler,
- Abstract要約: ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデル(LM)を人間の価値観や嗜好と整合させる一般的な手法である。
RLHFはトレーニングデータとして多数の選好ペアを必要としており、スーパービジョン・ファインチューニングとリワードモデルの両方のトレーニングでよく使用される。
我々は、悪意あるアクターが、好みを害することによって、LM世代を操作できる範囲について研究する。
- 参考スコア(独自算出の注目度): 30.343186069189944
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a popular method for aligning Language Models (LM) with human values and preferences. RLHF requires a large number of preference pairs as training data, which are often used in both the Supervised Fine-Tuning and Reward Model training and therefore publicly available datasets are commonly used. In this work, we study to what extent a malicious actor can manipulate the LMs generations by poisoning the preferences, i.e., injecting poisonous preference pairs into these datasets and the RLHF training process. We propose strategies to build poisonous preference pairs and test their performance by poisoning two widely used preference datasets. Our results show that preference poisoning is highly effective: injecting a small amount of poisonous data (1-5\% of the original dataset), we can effectively manipulate the LM to generate a target entity in a target sentiment (positive or negative). The findings from our experiments also shed light on strategies to defend against the preference poisoning attack.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデル(LM)を人間の価値観や嗜好と整合させる一般的な手法である。
RLHFはトレーニングデータとして多数の選好ペアを必要としており、Supervised Fine-TuningとReward Modelトレーニングの両方でよく使用される。
本研究では,これらのデータセットとRLHFトレーニングプロセスに有害な選好ペアを注入することにより,悪意あるアクターがLM世代をどの程度操作できるかを検討する。
そこで我々は,有毒な選好ペアを構築し,広く使用されている2つの選好データセットを汚染することにより,その性能をテストする戦略を提案する。
その結果,少量の有毒データ(原データセットの1~5倍)を注入することで,LMを効果的に操作し,対象の感情(肯定的あるいは否定的)で対象の実体を生成できることがわかった。
実験の結果は、嗜好中毒の予防戦略にも光を当てた。
関連論文リスト
- PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Progressive Poisoned Data Isolation for Training-time Backdoor Defense [23.955347169187917]
ディープニューラルネットワーク(DNN)は、悪意のある攻撃者がデータ中毒によってモデルの予測を操作するバックドア攻撃の影響を受けやすい。
本研究では, PPD (Progressive isolated of Poisoned Data) と呼ばれる, 新規かつ効果的な防御手法を提案する。
我々のPIPDは99.95%の平均真正率(TPR)を達成し、CIFAR-10データセットに対する多様な攻撃に対して平均偽正率(FPR)を0.06%とした。
論文 参考訳(メタデータ) (2023-12-20T02:40:28Z) - RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。
その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。
そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文 参考訳(メタデータ) (2023-11-16T07:48:45Z) - Explore the Effect of Data Selection on Poison Efficiency in Backdoor
Attacks [10.817607451423765]
本研究では,サンプル選択の観点から,バックドアアタックの毒殺効率の向上に焦点をあてる。
各種毒物試料の寄与を示すために, 試料の忘れイベントを採用し, 損失面の曲率を用いて, この現象の有効性を解析した。
論文 参考訳(メタデータ) (2023-10-15T05:55:23Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Data-Efficient Backdoor Attacks [14.230326737098554]
ディープニューラルネットワークはバックドア攻撃に弱い。
本稿では,その選択による毒性データ効率の向上について定式化する。
同じ攻撃成功率は、有毒サンプル量のわずか47%から75%で達成できる。
論文 参考訳(メタデータ) (2022-04-22T09:52:22Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Property Inference From Poisoning [15.105224455937025]
プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。
本研究では,モデルの情報漏洩を増大させることが目的とする中毒攻撃について検討する。
以上より,毒殺攻撃は情報漏洩を著しく促進し,敏感なアプリケーションにおいてより強力な脅威モデルと見なされるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-01-26T20:35:28Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。