論文の概要: PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning
- arxiv url: http://arxiv.org/abs/2410.08811v1
- Date: Fri, 11 Oct 2024 13:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:55:57.967628
- Title: PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning
- Title(参考訳): PoisonBench: データ中毒に対する大規模言語モデルの脆弱性を評価する
- Authors: Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B. Cohen, David Krueger, Fazl Barez,
- Abstract要約: 我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
- 参考スコア(独自算出の注目度): 32.508939142492004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference learning is a central component for aligning current LLMs, but this process can be vulnerable to data poisoning attacks. To address this concern, we introduce PoisonBench, a benchmark for evaluating large language models' susceptibility to data poisoning during preference learning. Data poisoning attacks can manipulate large language model responses to include hidden malicious content or biases, potentially causing the model to generate harmful or unintended outputs while appearing to function normally. We deploy two distinct attack types across eight realistic scenarios, assessing 21 widely-used models. Our findings reveal concerning trends: (1) Scaling up parameter size does not inherently enhance resilience against poisoning attacks; (2) There exists a log-linear relationship between the effects of the attack and the data poison ratio; (3) The effect of data poisoning can generalize to extrapolated triggers that are not included in the poisoned data. These results expose weaknesses in current preference learning techniques, highlighting the urgent need for more robust defenses against malicious models and data manipulation.
- Abstract(参考訳): 優先度学習は、現在のLLMを整列するための中心的な要素であるが、このプロセスはデータ中毒攻撃に対して脆弱である。
この問題に対処するために、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために大きな言語モデル応答を操作できるため、モデルが正常に機能しているように見える間に有害または意図しないアウトプットを生成する可能性がある。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
本研究は,(1) パラメータサイズを拡大することは, 攻撃に対するレジリエンスを本質的に向上させるものではないこと,(2) 攻撃効果とデータ中毒率との間に対数線的関係があること,(3) データ中毒の影響は, 有毒データに含まれない外挿トリガに一般化することができること,などの傾向を明らかにした。
これらの結果は、現在の嗜好学習技術の弱点を明らかにし、悪意あるモデルやデータ操作に対するより堅牢な防御の必要性を強調している。
関連論文リスト
- What Distributions are Robust to Indiscriminate Poisoning Attacks for
Linear Learners? [15.848311379119295]
本研究では, 学習者に対する無差別な毒殺について検討し, 学習者に対して, 学習データにいくつかの工芸品を注入し, 誘導モデルに高い試験誤差を生じさせるよう強制することを目的とした。
そこで本研究では, 線形学習者に対して, 線形学習者に対する有害な攻撃を非差別化するために, データセットが本質的に堅牢であるかどうかを考察した。
論文 参考訳(メタデータ) (2023-07-03T14:54:13Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning
Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。
我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。
我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文 参考訳(メタデータ) (2023-03-07T01:55:26Z) - Temporal Robustness against Data Poisoning [69.01705108817785]
データ中毒は、悪意のあるトレーニングデータを通じて、敵対者が機械学習アルゴリズムの振る舞いを操作する場合を考慮している。
本研究では,攻撃開始時間と攻撃持続時間を測定する2つの新しい指標である耳線と持続時間を用いたデータ中毒の時間的脅威モデルを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:59:19Z) - Data Poisoning Attacks Against Multimodal Encoders [24.02062380303139]
視覚と言語の両方において多モーダルモデルに対する中毒攻撃について検討する。
攻撃を緩和するため,前訓練と後訓練の両方の防御策を提案する。
論文 参考訳(メタデータ) (2022-09-30T06:50:08Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Property Inference From Poisoning [15.105224455937025]
プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。
本研究では,モデルの情報漏洩を増大させることが目的とする中毒攻撃について検討する。
以上より,毒殺攻撃は情報漏洩を著しく促進し,敏感なアプリケーションにおいてより強力な脅威モデルと見なされるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-01-26T20:35:28Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。