論文の概要: As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?
- arxiv url: http://arxiv.org/abs/2403.12693v1
- Date: Tue, 19 Mar 2024 12:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:13:49.825435
- Title: As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?
- Title(参考訳): As Firm as their Foundations: オープンソースファウンデーションモデルは、ダウンストリームタスクの逆例を作成するために使用できますか?
- Authors: Anjun Hu, Jindong Gu, Francesco Pinto, Konstantinos Kamnitsas, Philip Torr,
- Abstract要約: 我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。
本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。
本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
- 参考スコア(独自算出の注目度): 23.660089146157507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models pre-trained on web-scale vision-language data, such as CLIP, are widely used as cornerstones of powerful machine learning systems. While pre-training offers clear advantages for downstream learning, it also endows downstream models with shared adversarial vulnerabilities that can be easily identified through the open-sourced foundation model. In this work, we expose such vulnerabilities in CLIP's downstream models and show that foundation models can serve as a basis for attacking their downstream systems. In particular, we propose a simple yet effective adversarial attack strategy termed Patch Representation Misalignment (PRM). Solely based on open-sourced CLIP vision encoders, this method produces adversaries that simultaneously fool more than 20 downstream models spanning 4 common vision-language tasks (semantic segmentation, object detection, image captioning and visual question-answering). Our findings highlight the concerning safety risks introduced by the extensive usage of public foundational models in the development of downstream systems, calling for extra caution in these scenarios.
- Abstract(参考訳): CLIPのようなWebスケールの視覚言語データに基づいて事前トレーニングされたファンデーションモデルは、強力な機械学習システムの基盤として広く利用されている。
事前トレーニングは、下流の学習に明確な利点を提供する一方で、オープンソースのファンデーションモデルを通じて容易に識別できる、共通の敵の脆弱性を持つ下流モデルも提供します。
本研究では,これらの脆弱性をCLIPの下流モデルに公開し,基盤モデルが下流システムを攻撃する基盤となることを示す。
特に,Patch Representation Misalignment (PRM) と呼ばれる単純な敵攻撃戦略を提案する。
オープンソースCLIPビジョンエンコーダをベースとして、この手法は、4つの共通視覚言語タスク(セマンティックセグメンテーション、オブジェクト検出、画像キャプション、視覚質問応答)にまたがる20以上の下流モデルを同時に騙す敵を生成する。
本研究は, 下流システム開発において, 公共基盤モデルの広範囲な利用によってもたらされる安全性のリスクを浮き彫りにし, これらのシナリオにさらなる注意を喚起するものである。
関連論文リスト
- Stealth edits for provably fixing or attacking large language models [76.53356051271014]
我々は,大規模言語モデルを編集するための新しい手法と理論基盤を明らかにする。
モデル編集可能性の評価や、悪意のある攻撃に対する感受性を明らかにするために、新しい理論をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Refining Skewed Perceptions in Vision-Language Models through Visual Representations [0.033483662989441935]
大規模視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models [42.379680603462155]
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-19T18:09:48Z) - Adversarial Attacks on Foundational Vision Models [6.5530318775587]
大規模で事前訓練されたタスクに依存しない基本的なビジョンモデルの開発において、急速な進歩が進んでいる。
これらのモデルは下流で微調整される必要はなく、単にゼロショットや軽量なプローブヘッドで使用できる。
この研究の目的は、将来の設計をより堅牢にするために、これらのモデルのいくつかの主要な敵対的脆弱性を特定することである。
論文 参考訳(メタデータ) (2023-08-28T14:09:02Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - On the Robustness of Deep Clustering Models: Adversarial Attacks and
Defenses [14.951655356042947]
クラスタリングモデルは、多数のアプリケーションパイプラインで使用される教師なしの機械学習メソッドのクラスを構成する。
本稿では,GAN(Generative Adversarial Networks)を用いたブラックボックス攻撃を提案する。
我々は、複数の最先端のディープクラスタリングモデルと実世界のデータセットに対する攻撃を分析し、それが非常に成功したことを発見した。
論文 参考訳(メタデータ) (2022-10-04T22:32:02Z) - On the Evaluation of User Privacy in Deep Neural Networks using Timing
Side Channel [14.350301915592027]
我々は,Deep Learning (DL) の実装において,新たなデータ依存型タイミング側チャネルリーク(クラスリーク)を特定し,報告する。
ユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを悪用できる、実用的な推論時攻撃を実証する。
我々は,クラスリークを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。
論文 参考訳(メタデータ) (2022-08-01T19:38:16Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。