論文の概要: Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings
for Robust Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.12336v1
- Date: Mon, 19 Feb 2024 18:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:10:09.911901
- Title: Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings
for Robust Large Vision-Language Models
- Title(参考訳): Robust CLIP:ロバスト大視野モデルのための教師なし視覚埋め込みの微調整
- Authors: Christian Schlarmann, Naman Deep Singh, Francesco Croce, Matthias Hein
- Abstract要約: OpenFlamingo、LLaVA、GPT-4といったマルチモーダル基盤モデルは、様々な現実世界のタスクにますます使われている。
以前の研究では、これらのモデルは視覚のモダリティに対する敵の攻撃に対して非常に脆弱であることが示されている。
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
- 参考スコア(独自算出の注目度): 46.29675652378619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal foundation models like OpenFlamingo, LLaVA, and GPT-4 are
increasingly used for various real-world tasks. Prior work has shown that these
models are highly vulnerable to adversarial attacks on the vision modality.
These attacks can be leveraged to spread fake information or defraud users, and
thus pose a significant risk, which makes the robustness of large multi-modal
foundation models a pressing problem. The CLIP model, or one of its variants,
is used as a frozen vision encoder in many vision-language models (VLMs), e.g.
LLaVA and OpenFlamingo. We propose an unsupervised adversarial fine-tuning
scheme to obtain a robust CLIP vision encoder, which yields robustness on all
vision down-stream tasks (VLMs, zero-shot classification) that rely on CLIP. In
particular, we show that stealth-attacks on users of VLMs by a malicious third
party providing manipulated images are no longer possible once one replaces the
original CLIP model with our robust one. No retraining or fine-tuning of the
VLM is required. The code and robust models are available at
https://github.com/chs20/RobustVLM
- Abstract(参考訳): OpenFlamingo、LLaVA、GPT-4といったマルチモーダル基盤モデルは、様々な現実世界のタスクにますます使われている。
先行研究により、これらのモデルは視覚モダリティに対する敵対的攻撃に対して非常に脆弱であることが示されている。
これらの攻撃は偽の情報を広めたり、ユーザーを欺いたりするために利用でき、大きなマルチモーダル基盤モデルの堅牢性に重大なリスクをもたらす。
CLIPモデルは、LLaVAやOpenFlamingoなど、多くの視覚言語モデル(VLM)において、凍結した視覚エンコーダとして使用される。
本稿では,CLIPに依存した全視覚ダウンストリームタスク(VLM,ゼロショット分類)に対してロバストなCLIPビジョンエンコーダを実現するための教師なし逆調整方式を提案する。
特に,元のCLIPモデルを堅牢なものに置き換えれば,悪質な第三者によるVLMのユーザに対する盗難攻撃はもはや不可能であることを示す。
VLMの再訓練や微調整は不要である。
コードとロバストなモデルはhttps://github.com/chs20/robustvlmで利用可能である。
関連論文リスト
- Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models [0.0]
広範に使用されているCLIPビジョンエンコーダの敵攻撃に対する堅牢性を向上する,教師なし逆向き微調整手法であるSim-CLIPを提案する。
Sim-CLIPは、コサイン類似性の損失を伴うSiameseアーキテクチャを利用することで、大きなバッチサイズや運動量エンコーダを必要とせずに、意味的に意味があり、攻撃耐性のある視覚表現を学習する。
論文 参考訳(メタデータ) (2024-07-20T19:53:52Z) - As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks? [23.660089146157507]
我々は,Webスケールの視覚言語データに基づいて事前学習した基礎モデルが,下流システムを攻撃する基盤となることを示す。
本稿では,パッチ表現ミスアライメント(Patch Representation Misalignment)と呼ばれる,単純な敵攻撃戦略を提案する。
本研究は,下流システム開発における公共基盤モデルの利用がもたらす安全性のリスクを明らかにするものである。
論文 参考訳(メタデータ) (2024-03-19T12:51:39Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Adversarial Attacks on Foundational Vision Models [6.5530318775587]
大規模で事前訓練されたタスクに依存しない基本的なビジョンモデルの開発において、急速な進歩が進んでいる。
これらのモデルは下流で微調整される必要はなく、単にゼロショットや軽量なプローブヘッドで使用できる。
この研究の目的は、将来の設計をより堅牢にするために、これらのモデルのいくつかの主要な敵対的脆弱性を特定することである。
論文 参考訳(メタデータ) (2023-08-28T14:09:02Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。