論文の概要: Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.12336v2
- Date: Wed, 5 Jun 2024 15:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:11:46.034501
- Title: Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models
- Title(参考訳): ロバストCLIP:ロバスト大視野モデルのための教師なし視覚埋め込みの微調整
- Authors: Christian Schlarmann, Naman Deep Singh, Francesco Croce, Matthias Hein,
- Abstract要約: 頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
- 参考スコア(独自算出の注目度): 42.379680603462155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal foundation models like OpenFlamingo, LLaVA, and GPT-4 are increasingly used for various real-world tasks. Prior work has shown that these models are highly vulnerable to adversarial attacks on the vision modality. These attacks can be leveraged to spread fake information or defraud users, and thus pose a significant risk, which makes the robustness of large multi-modal foundation models a pressing problem. The CLIP model, or one of its variants, is used as a frozen vision encoder in many large vision-language models (LVLMs), e.g. LLaVA and OpenFlamingo. We propose an unsupervised adversarial fine-tuning scheme to obtain a robust CLIP vision encoder, which yields robustness on all vision down-stream tasks (LVLMs, zero-shot classification) that rely on CLIP. In particular, we show that stealth-attacks on users of LVLMs by a malicious third party providing manipulated images are no longer possible once one replaces the original CLIP model with our robust one. No retraining or fine-tuning of the down-stream LVLMs is required. The code and robust models are available at https://github.com/chs20/RobustVLM
- Abstract(参考訳): OpenFlamingo、LLaVA、GPT-4といったマルチモーダル基盤モデルは、様々な現実世界のタスクにますます使われている。
以前の研究では、これらのモデルは視覚のモダリティに対する敵の攻撃に対して非常に脆弱であることが示されている。
これらの攻撃は偽の情報を広めたり、ユーザーを欺いたりするために利用でき、大きなマルチモーダル基盤モデルの堅牢性に重大なリスクをもたらす。
CLIPモデルまたはその派生機種の1つは、多くの大きな視覚言語モデル(LVLM)、例えばLLaVAやOpenFlamingoの凍結視覚エンコーダとして使用される。
本稿では,CLIPに依存した全視覚ダウンストリームタスク(LVLM,ゼロショット分類)に対してロバストなCLIPビジョンエンコーダを実現するための,教師なし逆調整方式を提案する。
特に,元のCLIPモデルをロバストなものに置き換えれば,悪質な第三者によるLVLMのユーザに対する盗難攻撃はもはや不可能であることを示す。
下流のLVLMの再訓練や微調整は不要である。
コードとロバストモデルはhttps://github.com/chs20/RobustVLMで公開されている。
関連論文リスト
- Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models [0.0]
広範に使用されているCLIPビジョンエンコーダの敵攻撃に対する堅牢性を向上する,教師なし逆向き微調整手法であるSim-CLIPを提案する。
Sim-CLIPは、コサイン類似性の損失を伴うSiameseアーキテクチャを利用することで、大きなバッチサイズや運動量エンコーダを必要とせずに、意味的に意味があり、攻撃耐性のある視覚表現を学習する。
論文 参考訳(メタデータ) (2024-07-20T19:53:52Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks? [23.660089146157507]
我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。
本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。
本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
論文 参考訳(メタデータ) (2024-03-19T12:51:39Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Adversarial Attacks on Foundational Vision Models [6.5530318775587]
大規模で事前訓練されたタスクに依存しない基本的なビジョンモデルの開発において、急速な進歩が進んでいる。
これらのモデルは下流で微調整される必要はなく、単にゼロショットや軽量なプローブヘッドで使用できる。
この研究の目的は、将来の設計をより堅牢にするために、これらのモデルのいくつかの主要な敵対的脆弱性を特定することである。
論文 参考訳(メタデータ) (2023-08-28T14:09:02Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。