Fugu-MT 論文翻訳(概要): Scaling Laws for Data Poisoning in LLMs

論文の概要: Scaling Laws for Data Poisoning in LLMs

arxiv url: http://arxiv.org/abs/2408.02946v3
Date: Tue, 29 Oct 2024 17:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 12:44:50.412166
Title: Scaling Laws for Data Poisoning in LLMs
Title（参考訳）: LLMにおけるデータポジショニングのスケーリング法則
Authors: Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine,
Abstract要約: 近年の研究では、LSMは部分的に破損したデータや有害なデータに基づいて訓練されるデータ中毒に弱いことが示されている。我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。より大きなLSMはますます脆弱になってきており、データ中毒の少ないLSMよりも、有害な行動の学習が著しく速いことがわかりました。
参考スコア（独自算出の注目度）: 4.579553472774928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work shows that LLMs are vulnerable to data poisoning, in which they are trained on partially corrupted or harmful data. Poisoned data is hard to detect, breaks guardrails, and leads to undesirable and harmful behavior. Given the intense efforts by leading labs to train and deploy increasingly larger and more capable LLMs, it is critical to ask if the risk of data poisoning will be naturally mitigated by scale, or if it is an increasing threat. We consider three threat models by which data poisoning can occur: malicious fine-tuning, imperfect data curation, and intentional data contamination. Our experiments evaluate the effects of data poisoning on 23 frontier LLMs ranging from 1.5-72 billion parameters, on three datasets which speak to each of our threat models. We find that larger LLMs are increasingly vulnerable, learning harmful behavior significantly quicker than smaller LLMs with even minimal data poisoning. Additionally, we demonstrate that even frontier GPT models, despite additional moderation systems, remain susceptible to data poisoning. These results underscore the need for robust safeguards against data poisoning in larger LLMs.
Abstract（参考訳）: 近年の研究では、LSMは部分的に破損したデータや有害なデータに基づいて訓練されるデータ中毒に弱いことが示されている。汚染されたデータは検出しにくく、ガードレールを壊し、望ましくない有害な行動を引き起こす。より大きく、より有能なLSMを訓練し、展開する研究所を指導する強力な取り組みを考えると、データ中毒のリスクはスケールによって自然に軽減されるのか、それが脅威の増加なのかを問うことが重要である。我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。データ中毒が15～72億のパラメータから23のフロンティアLCMに対して与える影響を,それぞれの脅威モデルに対応する3つのデータセットに対して評価した。より大きなLSMはますます脆弱になってきており、データ中毒の少ないLSMよりも、有害な行動の学習が著しく速いことがわかりました。さらに、新たなモデレーションシステムにもかかわらず、フロンティアGPTモデルでさえ、データ中毒の影響を受けやすいことを実証した。これらの結果は、より大きなLSMにおけるデータ中毒に対する堅牢な保護の必要性を浮き彫りにした。

関連論文リスト

Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs [3.7913442178940318]
現代の大型言語モデル (LLM) は毒薬攻撃の重大な脆弱性を示す。我々はこれらの攻撃がLLMの固有のアーキテクチャ特性を悪用していることを実証する。私たちの研究は、セキュリティの脅威と診断ツールとして毒薬を確立しています。
論文参考訳（メタデータ） (2025-02-23T06:34:55Z)
Multi-Faceted Studies on Data Poisoning can Advance LLM Development [45.53752823903236]
本稿では,大規模言語モデルにおけるデータ中毒の役割を再考する。脅威の観点からは、データ中毒攻撃の実践的戦略は、実際の安全リスクを評価し、対処するのに役立ちます。信頼性の観点からは、データ中毒を利用してより堅牢なLSMを構築することができる。
論文参考訳（メタデータ） (2025-02-20T01:19:51Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。 8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文参考訳（メタデータ） (2024-10-11T13:50:50Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
On Practical Aspects of Aggregation Defenses against Data Poisoning Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文参考訳（メタデータ） (2023-06-28T17:59:35Z)
On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。自動データ中毒パイプラインである textitAutoPoison を提案する。結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文参考訳（メタデータ） (2023-06-28T17:54:04Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文参考訳（メタデータ） (2023-03-07T01:55:26Z)
Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。データ中毒攻撃は、スクラップ対策として提案されている。より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文参考訳（メタデータ） (2022-06-08T06:24:51Z)
BEAS: Blockchain Enabled Asynchronous & Secure Federated Machine Learning [0.0]
我々は、N-party Federated Learningのための最初のブロックチェーンベースのフレームワークBEASを紹介する。グラデーションプルーニングを使用したトレーニングデータの厳格なプライバシー保証を提供する。異常検出プロトコルは、データ汚染攻撃のリスクを最小限に抑えるために使用される。また、異種学習環境における早期収束を防止するための新しいプロトコルも定義する。
論文参考訳（メタデータ） (2022-02-06T17:11:14Z)
Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。我々は,dos有毒なインスタンスを検出する新しい手法を提案する。 2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文参考訳（メタデータ） (2021-04-14T09:52:36Z)
Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文参考訳（メタデータ） (2020-09-04T16:17:54Z)
Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文参考訳（メタデータ） (2020-06-22T18:34:08Z)
With Great Dispersion Comes Greater Resilience: Efficient Poisoning Attacks and Defenses for Linear Regression Models [28.680562906669216]
我々は,攻撃者が有害データセットによる回帰学習の結果にどう干渉するかを分析する。 Noptと呼ばれる我々の攻撃は、同じ量の有毒なデータポイントでより大きなエラーを発生させることができる。新たな防御アルゴリズムであるProdaは,誤りの低減に有効であることを示す。
論文参考訳（メタデータ） (2020-06-21T22:36:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。