論文の概要: As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?
- arxiv url: http://arxiv.org/abs/2403.12693v1
- Date: Tue, 19 Mar 2024 12:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:13:49.825435
- Title: As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?
- Title(参考訳): As Firm as their Foundations: オープンソースファウンデーションモデルは、ダウンストリームタスクの逆例を作成するために使用できますか?
- Authors: Anjun Hu, Jindong Gu, Francesco Pinto, Konstantinos Kamnitsas, Philip Torr,
- Abstract要約: 我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。
本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。
本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
- 参考スコア(独自算出の注目度): 23.660089146157507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models pre-trained on web-scale vision-language data, such as CLIP, are widely used as cornerstones of powerful machine learning systems. While pre-training offers clear advantages for downstream learning, it also endows downstream models with shared adversarial vulnerabilities that can be easily identified through the open-sourced foundation model. In this work, we expose such vulnerabilities in CLIP's downstream models and show that foundation models can serve as a basis for attacking their downstream systems. In particular, we propose a simple yet effective adversarial attack strategy termed Patch Representation Misalignment (PRM). Solely based on open-sourced CLIP vision encoders, this method produces adversaries that simultaneously fool more than 20 downstream models spanning 4 common vision-language tasks (semantic segmentation, object detection, image captioning and visual question-answering). Our findings highlight the concerning safety risks introduced by the extensive usage of public foundational models in the development of downstream systems, calling for extra caution in these scenarios.
- Abstract(参考訳): CLIPのようなWebスケールの視覚言語データに基づいて事前トレーニングされたファンデーションモデルは、強力な機械学習システムの基盤として広く利用されている。
事前トレーニングは、下流の学習に明確な利点を提供する一方で、オープンソースのファンデーションモデルを通じて容易に識別できる、共通の敵の脆弱性を持つ下流モデルも提供します。
本研究では,これらの脆弱性をCLIPの下流モデルに公開し,基盤モデルが下流システムを攻撃する基盤となることを示す。
特に,Patch Representation Misalignment (PRM) と呼ばれる単純な敵攻撃戦略を提案する。
オープンソースCLIPビジョンエンコーダをベースとして、この手法は、4つの共通視覚言語タスク(セマンティックセグメンテーション、オブジェクト検出、画像キャプション、視覚質問応答)にまたがる20以上の下流モデルを同時に騙す敵を生成する。
本研究は, 下流システム開発において, 公共基盤モデルの広範囲な利用によってもたらされる安全性のリスクを浮き彫りにし, これらのシナリオにさらなる注意を喚起するものである。
関連論文リスト
- Memory Backdoor Attacks on Neural Networks [3.2720947374803777]
本稿では,特定のトレーニングサンプルに対してモデルを秘密裏に訓練し,後に選択的に出力するメモリバックドア攻撃を提案する。
画像分類器、セグメンテーションモデル、および大規模言語モデル(LLM)に対する攻撃を実証する。
論文 参考訳(メタデータ) (2024-11-21T16:09:16Z) - Edge-Only Universal Adversarial Attacks in Distributed Learning [49.546479320670464]
本研究では,攻撃者がモデルのエッジ部分のみにアクセスした場合に,ユニバーサルな敵攻撃を発生させる可能性について検討する。
提案手法は, エッジ側の重要な特徴を活用することで, 未知のクラウド部分において, 効果的な誤予測を誘導できることを示唆する。
ImageNetの結果は、未知のクラウド部分に対する強力な攻撃伝達性を示している。
論文 参考訳(メタデータ) (2024-11-15T11:06:24Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Adversarial Attacks on Foundational Vision Models [6.5530318775587]
大規模で事前訓練されたタスクに依存しない基本的なビジョンモデルの開発において、急速な進歩が進んでいる。
これらのモデルは下流で微調整される必要はなく、単にゼロショットや軽量なプローブヘッドで使用できる。
この研究の目的は、将来の設計をより堅牢にするために、これらのモデルのいくつかの主要な敵対的脆弱性を特定することである。
論文 参考訳(メタデータ) (2023-08-28T14:09:02Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - On the Robustness of Deep Clustering Models: Adversarial Attacks and
Defenses [14.951655356042947]
クラスタリングモデルは、多数のアプリケーションパイプラインで使用される教師なしの機械学習メソッドのクラスを構成する。
本稿では,GAN(Generative Adversarial Networks)を用いたブラックボックス攻撃を提案する。
我々は、複数の最先端のディープクラスタリングモデルと実世界のデータセットに対する攻撃を分析し、それが非常に成功したことを発見した。
論文 参考訳(メタデータ) (2022-10-04T22:32:02Z) - On the Evaluation of User Privacy in Deep Neural Networks using Timing
Side Channel [14.350301915592027]
我々は,Deep Learning (DL) の実装において,新たなデータ依存型タイミング側チャネルリーク(クラスリーク)を特定し,報告する。
ユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを悪用できる、実用的な推論時攻撃を実証する。
我々は,クラスリークを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。
論文 参考訳(メタデータ) (2022-08-01T19:38:16Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。