論文の概要: Scaling Laws for Data Poisoning in LLMs
- arxiv url: http://arxiv.org/abs/2408.02946v1
- Date: Tue, 6 Aug 2024 04:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:59:44.465164
- Title: Scaling Laws for Data Poisoning in LLMs
- Title(参考訳): LLMにおけるデータポジショニングのスケーリング法則
- Authors: Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine,
- Abstract要約: 最近の研究では、LSMはデータ中毒に弱いことが示されており、部分的に破損または有害なデータで訓練されている。
我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。
より大きなLSMはますます脆弱になってきており、睡眠薬の行動を含む有害な行動の学習は、データ中毒を最小限に抑える小さなLSMよりもはるかに速くなっています。
- 参考スコア(独自算出の注目度): 4.579553472774928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that LLMs are vulnerable to data poisoning, in which they are trained on partially corrupted or harmful data. Poisoned data is hard to detect, breaks guardrails, and leads to undesirable and harmful behavior. Given the intense efforts by leading labs to train and deploy increasingly larger and more capable LLMs, it is critical to ask if the risk of data poisoning will be naturally mitigated by scale, or if it is an increasing threat. We consider three threat models by which data poisoning can occur: malicious fine-tuning, imperfect data curation, and intentional data contamination. Our experiments evaluate the effects of data poisoning on 23 frontier LLMs ranging from 1.5-72 billion parameters on three datasets which speak to each of our threat models. We find that larger LLMs are increasingly vulnerable, learning harmful behavior -- including sleeper agent behavior -- significantly more quickly than smaller LLMs with even minimal data poisoning. These results underscore the need for robust safeguards against data poisoning in larger LLMs.
- Abstract(参考訳): 近年の研究では、LSMは部分的に破損したデータや有害なデータに基づいて訓練されるデータ中毒に弱いことが示されている。
汚染されたデータは検出しにくく、ガードレールを壊し、望ましくない有害な行動を引き起こす。
より大きく、より有能なLSMを訓練し、展開する研究所を指導する強力な取り組みを考えると、データ中毒のリスクはスケールによって自然に軽減されるのか、それが脅威の増加なのかを問うことが重要である。
我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。
実験では,データ中毒が,脅威モデルに対応する3つのデータセットに対する15~72億のパラメータから,フロンティアのLLMに対する影響を評価した。
より大きなLSMはますます脆弱になってきており、睡眠薬の行動を含む有害な行動の学習は、データ中毒を最小限に抑える小さなLSMよりもはるかに速くなっています。
これらの結果は、より大きなLSMにおけるデータ中毒に対する堅牢な保護の必要性を浮き彫りにした。
関連論文リスト
- PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - BEAS: Blockchain Enabled Asynchronous & Secure Federated Machine
Learning [0.0]
我々は、N-party Federated Learningのための最初のブロックチェーンベースのフレームワークBEASを紹介する。
グラデーションプルーニングを使用したトレーニングデータの厳格なプライバシー保証を提供する。
異常検出プロトコルは、データ汚染攻撃のリスクを最小限に抑えるために使用される。
また、異種学習環境における早期収束を防止するための新しいプロトコルも定義する。
論文 参考訳(メタデータ) (2022-02-06T17:11:14Z) - Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。
我々は,dos有毒なインスタンスを検出する新しい手法を提案する。
2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文 参考訳(メタデータ) (2021-04-14T09:52:36Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z) - With Great Dispersion Comes Greater Resilience: Efficient Poisoning
Attacks and Defenses for Linear Regression Models [28.680562906669216]
我々は,攻撃者が有害データセットによる回帰学習の結果にどう干渉するかを分析する。
Noptと呼ばれる我々の攻撃は、同じ量の有毒なデータポイントでより大きなエラーを発生させることができる。
新たな防御アルゴリズムであるProdaは,誤りの低減に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-21T22:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。