論文の概要: Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.14971v1
- Date: Sat, 20 Jul 2024 19:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:48:22.035212
- Title: Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models
- Title(参考訳): Sim-CLIP:ロバストおよびセマンティック・リッチビジョン・ランゲージモデルのための教師なしシームズ逆調整
- Authors: Md Zarif Hossain, Ahmed Imteaj,
- Abstract要約: 広範に使用されているCLIPビジョンエンコーダの敵攻撃に対する堅牢性を向上する,教師なし逆向き微調整手法であるSim-CLIPを提案する。
Sim-CLIPは、コサイン類似性の損失を伴うSiameseアーキテクチャを利用することで、大きなバッチサイズや運動量エンコーダを必要とせずに、意味的に意味があり、攻撃耐性のある視覚表現を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have achieved significant strides in recent times specially in multimodal tasks, yet they remain susceptible to adversarial attacks on their vision components. To address this, we propose Sim-CLIP, an unsupervised adversarial fine-tuning method that enhances the robustness of the widely-used CLIP vision encoder against such attacks while maintaining semantic richness and specificity. By employing a Siamese architecture with cosine similarity loss, Sim-CLIP learns semantically meaningful and attack-resilient visual representations without requiring large batch sizes or momentum encoders. Our results demonstrate that VLMs enhanced with Sim-CLIP's fine-tuned CLIP encoder exhibit significantly enhanced robustness against adversarial attacks, while preserving semantic meaning of the perturbed images. Notably, Sim-CLIP does not require additional training or fine-tuning of the VLM itself; replacing the original vision encoder with our fine-tuned Sim-CLIP suffices to provide robustness. This work underscores the significance of reinforcing foundational models like CLIP to safeguard the reliability of downstream VLM applications, paving the way for more secure and effective multimodal systems.
- Abstract(参考訳): 視覚言語モデル(VLM)は、近年では特にマルチモーダルなタスクにおいて大きな進歩を遂げているが、そのビジョンコンポーネントに対する敵の攻撃の影響を受けやすいままである。
そこで本研究では,CLIPビジョンエンコーダの攻撃に対する堅牢性を向上し,意味的豊かさと特異性を維持しつつ,教師なしの逆向き微調整手法であるSim-CLIPを提案する。
Sim-CLIPは、コサイン類似性の損失を伴うSiameseアーキテクチャを利用することで、大きなバッチサイズや運動量エンコーダを必要とせずに、意味的に意味があり、攻撃耐性のある視覚表現を学習する。
以上の結果から,Sim-CLIPの微調整CLIPエンコーダにより拡張されたVLMは,摂動画像の意味を保ちながら,対角攻撃に対するロバスト性を大幅に向上することが示された。
特に、Sim-CLIPはVLM自体のトレーニングや微調整を必要とせず、元のビジョンエンコーダを細調整したSim-CLIPサファイスに置き換えて堅牢性を提供する。
この研究は、下流のVLMアプリケーションの信頼性を保護し、よりセキュアで効果的なマルチモーダルシステムを実現するために、CLIPのような基盤モデルを強化することの重要性を強調している。
関連論文リスト
- Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks [0.0]
LVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIである。
ジェイルブレイクは安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
論文 参考訳(メタデータ) (2024-09-11T15:39:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [32.42201363966808]
マルチモーダル攻撃下での対角的ロバスト性に対する視覚言語モデルの適用について検討する。
本研究は,マルチモーダル・コントラッシブ・コントラスト・トレーニング・ロスを提案し,クリーン・アトラッシブ・テキストの埋め込みと,その逆・クリーンな視覚的特徴との整合性を示す。
2つのタスクにまたがる15のデータセットの実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models [42.379680603462155]
頑健なCLIPビジョンエンコーダを実現するために,教師なし逆向き微調整方式を提案する。
悪質な第三者によるLVLMのユーザに対する盗聴攻撃は、CLIPモデルを堅牢なものに置き換えれば、もはや不可能であることを示す。
論文 参考訳(メタデータ) (2024-02-19T18:09:48Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。