論文の概要: Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment
- arxiv url: http://arxiv.org/abs/2411.15673v1
- Date: Sat, 23 Nov 2024 23:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:00.056423
- Title: Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge Alignment
- Title(参考訳): セマンティックシールド: きめ細かい知識アライメントによるバックドアや毒殺に対する視覚境界モデル
- Authors: Alvi Md Ishmam, Christopher Thomas,
- Abstract要約: 対照的に訓練された視覚言語モデルに対する攻撃を緩和する手法を提案する。
提案手法では,言語モデルから抽出した外部知識を活用し,外部知識との強い整合性に欠ける画像領域間の相関関係の学習を防止する。
- 参考スコア(独自算出の注目度): 5.300998659734741
- License:
- Abstract: In recent years there has been enormous interest in vision-language models trained using self-supervised objectives. However, the use of large-scale datasets scraped from the web for training also makes these models vulnerable to potential security threats, such as backdooring and poisoning attacks. In this paper, we propose a method for mitigating such attacks on contrastively trained vision-language models. Our approach leverages external knowledge extracted from a language model to prevent models from learning correlations between image regions which lack strong alignment with external knowledge. We do this by imposing constraints to enforce that attention paid by the model to visual regions is proportional to the alignment of those regions with external knowledge. We conduct extensive experiments using a variety of recent backdooring and poisoning attacks on multiple datasets and architectures. Our results clearly demonstrate that our proposed approach is highly effective at defending against such attacks across multiple settings, while maintaining model utility and without requiring any changes at inference time
- Abstract(参考訳): 近年,自己教師対象を用いた視覚言語モデルへの関心が高まっている。
しかし、トレーニングのためにWebからスクラップされた大規模なデータセットを使用することで、バックドアや中毒攻撃といった潜在的なセキュリティ上の脅威に対して、これらのモデルが脆弱になる。
本論文では、対照的に訓練された視覚言語モデルに対する攻撃を緩和する手法を提案する。
提案手法では,言語モデルから抽出した外部知識を活用し,外部知識との強い整合性に欠ける画像領域間の相関関係の学習を防止する。
モデルが視覚領域に注意を払うことは、これらの領域の外部知識との整合性に比例する。
複数のデータセットやアーキテクチャに対して,近年のバックドア攻撃や毒殺攻撃による広範囲な実験を行っている。
提案手法は, モデルの有用性を維持しつつも, 推論時間に何の変更も必要とせず, 複数設定での攻撃に対する防御に極めて有効であることを示す。
関連論文リスト
- Memory Backdoor Attacks on Neural Networks [3.2720947374803777]
本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
論文 参考訳(メタデータ) (2024-11-21T16:09:16Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning [24.059033969435973]
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙う2段階のプライバシ攻撃戦略を提案する。
比較実験は、様々なデータセットやシナリオで優れた攻撃性能を示す。
私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
論文 参考訳(メタデータ) (2023-12-10T01:19:59Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - Identifying Backdoor Attacks in Federated Learning via Anomaly Detection [31.197488921578984]
フェデレーション学習はバックドア攻撃に弱い。
本稿では,共有モデル更新を検証し,攻撃に対する効果的な防御方法を提案する。
提案手法が最先端のバックドア攻撃を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-02-09T07:07:42Z) - Delving into Data: Effectively Substitute Training for Black-box Attack [84.85798059317963]
本稿では,知識盗むプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替トレーニングを提案する。
これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-26T07:26:29Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。