論文の概要: Phantom Transfer: Data-level Defences are Insufficient Against Data Poisoning
- arxiv url: http://arxiv.org/abs/2602.04899v1
- Date: Tue, 03 Feb 2026 14:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.519792
- Title: Phantom Transfer: Data-level Defences are Insufficient Against Data Poisoning
- Title(参考訳): Phantom Transfer: データレベルの防衛はデータ中毒に対して十分ではない
- Authors: Andrew Draganov, Tolga H. Dur, Anandmayi Bhongade, Mary Phuong,
- Abstract要約: データ中毒(Phantom Transfer)と呼ばれる攻撃は、たとえその毒が、たとえその有害なデータセットにどのように置かれていたかを正確に知っているとしても、それをフィルターすることができないという特性を持つ。
我々は、GPT-4.1を含むモデル間で攻撃が動作することを示した。
これは、データレベルの防御が高度なデータ中毒攻撃を止めるには不十分であることを示唆している。
- 参考スコア(独自算出の注目度): 2.290359868657638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a data poisoning attack -- Phantom Transfer -- with the property that, even if you know precisely how the poison was placed into an otherwise benign dataset, you cannot filter it out. We achieve this by modifying subliminal learning to work in real-world contexts and demonstrate that the attack works across models, including GPT-4.1. Indeed, even fully paraphrasing every sample in the dataset using a different model does not stop the attack. We also discuss connections to steering vectors and show that one can plant password-triggered behaviours into models while still beating defences. This suggests that data-level defences are insufficient for stopping sophisticated data poisoning attacks. We suggest that future work should focus on model audits and white-box security methods.
- Abstract(参考訳): データ中毒(Phantom Transfer)と呼ばれる攻撃は、たとえその毒が、たとえその有害なデータセットにどのように置かれていたかを正確に知っているとしても、それをフィルターすることができないという特性を持つ。
我々は、現実世界のコンテキストで動作するようにサブリミナル学習を修正し、GPT-4.1を含むモデル間で攻撃が動作することを示す。
実際、データセットのすべてのサンプルを別のモデルで完全に言い換えても、攻撃を止めることはできない。
ステアリングベクターとの接続についても議論し、防御を保ちながら、パスワードでトリガーされた動作をモデルに組み込むことができることを示す。
これは、データレベルの防御が高度なデータ中毒攻撃を止めるには不十分であることを示唆している。
今後の作業は、モデル監査とホワイトボックスのセキュリティ手法に重点を置くべきだと提案する。
関連論文リスト
- SpooFL: Spoofing Federated Learning [54.05993847488204]
我々は、攻撃者が真の訓練データを回復したと信じ込ませるスプーフィングベースの防御を導入する。
クラスやディストリビューションをプライベートデータと共有する以前の合成データディフェンスとは異なり、SFLは外部データセットでトレーニングされた最先端の生成モデルを使用する。
その結果、攻撃者はプラウチブルで完全に無関係なサンプルを回収し、有意義なデータ漏洩を防ぐことに誤解される。
論文 参考訳(メタデータ) (2026-01-21T14:57:18Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models [53.416234157608]
本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。
本研究は、悪意のある指示をほとんど出さず、データ中毒によるモデル行動を制御することによって、攻撃者がバックドアを注入できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - Pick your Poison: Undetectability versus Robustness in Data Poisoning
Attacks [33.82164201455115]
大量のWebスクラッドデータに基づいてトレーニングされた深層画像分類モデルは、データ中毒の影響を受けやすい。
既存の作業は、効果的な防御を、(i)修理によってモデルの整合性を回復するか、(ii)攻撃を検出するものと見なしている。
我々は、このアプローチが重要なトレードオフを見落としていると論じている。攻撃者は、検知可能性(過剰投下)を犠牲にして増加したり、ロバスト性(過密投下)を犠牲にして検出可能性を減らすことができる。
論文 参考訳(メタデータ) (2023-05-07T15:58:06Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics [44.487762480349765]
少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T20:49:40Z) - Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。
我々は,dos有毒なインスタンスを検出する新しい手法を提案する。
2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文 参考訳(メタデータ) (2021-04-14T09:52:36Z) - Property Inference From Poisoning [15.105224455937025]
プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。
本研究では,モデルの情報漏洩を増大させることが目的とする中毒攻撃について検討する。
以上より,毒殺攻撃は情報漏洩を著しく促進し,敏感なアプリケーションにおいてより強力な脅威モデルと見なされるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-01-26T20:35:28Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。