論文の概要: Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense
- arxiv url: http://arxiv.org/abs/2503.11619v1
- Date: Fri, 14 Mar 2025 17:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:17.791488
- Title: Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense
- Title(参考訳): Tit-for-Tat: 敵防衛による脱獄攻撃に対する大規模ビジョンランゲージモデルの保護
- Authors: Shuyang Hao, Yiwei Wang, Bryan Hooi, Ming-Hsuan Yang, Jun Liu, Chengcheng Tang, Zi Huang, Yujun Cai,
- Abstract要約: 大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
- 参考スコア(独自算出の注目度): 90.71884758066042
- License:
- Abstract: Deploying large vision-language models (LVLMs) introduces a unique vulnerability: susceptibility to malicious attacks via visual inputs. However, existing defense methods suffer from two key limitations: (1) They solely focus on textual defenses, fail to directly address threats in the visual domain where attacks originate, and (2) the additional processing steps often incur significant computational overhead or compromise model performance on benign tasks. Building on these insights, we propose ESIII (Embedding Security Instructions Into Images), a novel methodology for transforming the visual space from a source of vulnerability into an active defense mechanism. Initially, we embed security instructions into defensive images through gradient-based optimization, obtaining security instructions in the visual dimension. Subsequently, we integrate security instructions from visual and textual dimensions with the input query. The collaboration between security instructions from different dimensions ensures comprehensive security protection. Extensive experiments demonstrate that our approach effectively fortifies the robustness of LVLMs against such attacks while preserving their performance on standard benign tasks and incurring an imperceptible increase in time costs.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)のデプロイには、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性が導入されている。
しかし, 既存の防御手法には, 1) テキストによる防御のみに焦点を当て, 攻撃の発端となる視覚領域の脅威に対処できないこと, (2) 追加の処理手順は, しばしば計算上のオーバーヘッドを生じさせること, あるいは, 良質なタスクにおけるモデル性能を損なうこと, の2つの重要な制限がある。
これらの知見に基づいて,脆弱性源からアクティブ防衛機構へ視覚空間を変換する新しい手法であるESIII(Embedding Security Instructions Into Images)を提案する。
最初は、勾配に基づく最適化により、セキュリティ命令を防御画像に埋め込んで、視覚次元のセキュリティ命令を得る。
その後、視覚的およびテキスト的次元からのセキュリティ命令を入力クエリと統合する。
異なる次元からのセキュリティ命令間のコラボレーションにより、包括的なセキュリティ保護が保証される。
大規模実験により,LVLMの攻撃に対する堅牢性を効果的に保ちつつ,標準的なタスクにおける性能を保ちながら,時間的コストの許容範囲の増大を招いた。
関連論文リスト
- Mind Your Questions! Towards Backdoor Attacks on Text-to-Visualization Models [21.2448592823259]
VisPoisonは、これらのテキスト・ツー・ビジュアライゼーションモデルの脆弱性を体系的に識別するように設計されたフレームワークである。
我々は、VisPoisonが90%以上の攻撃成功率を達成したことを示し、現在のテキスト・ツー・ビジターモデルのセキュリティ問題を強調した。
論文 参考訳(メタデータ) (2024-10-09T11:22:03Z) - Backdooring Vision-Language Models with Out-Of-Distribution Data [44.40928756056506]
視覚言語モデル(VLM)は視覚入力から詳細なテキスト記述を生成する。
重要性は増しているが、特にバックドア攻撃に対するVLMの安全性は検討中である。
VLOOD(Backdooring Vision-Language Models with Out-of-Distribution Data)は、2つの重要なコントリビューションを持つ新しいアプローチである。
論文 参考訳(メタデータ) (2024-10-02T06:21:00Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Attention-Based Real-Time Defenses for Physical Adversarial Attacks in
Vision Applications [58.06882713631082]
ディープニューラルネットワークはコンピュータビジョンタスクにおいて優れたパフォーマンスを示すが、現実の敵攻撃に対する脆弱性は深刻なセキュリティ上の懸念を引き起こす。
本稿では、敵チャネルの注意力を利用して、浅いネットワーク層における悪意のある物体を素早く識別・追跡する、効果的な注意に基づく防御機構を提案する。
また、効率的な多フレーム防御フレームワークを導入し、防御性能と計算コストの両方を評価することを目的とした広範な実験を通じて、その有効性を検証した。
論文 参考訳(メタデータ) (2023-11-19T00:47:17Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。