論文の概要: TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.10872v2
- Date: Fri, 21 Mar 2025 19:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:05.701926
- Title: TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models
- Title(参考訳): TAIJI:視覚言語モデルにおけるジェイルブレイク画像のテキストアンチョリング
- Authors: Xiangyu Yin, Yi Qi, Jinwei Hu, Zhen Chen, Yi Dong, Xingyu Zhao, Xiaowei Huang, Wenjie Ruan,
- Abstract要約: 視覚言語モデル(VLM)は印象的な推論能力を示しているが、ジェイルブレイク攻撃には弱いままである。
textbfTextual textbfAnchoring for textbfImmunizing textbfJailbreak textbfImages (textbfTAIJI)
textbfTextual textbfAnchoring for textbfImmunizing textbfという新しいブラックボックス防御フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.58768160864168
- License:
- Abstract: Vision Language Models (VLMs) have demonstrated impressive inference capabilities, but remain vulnerable to jailbreak attacks that can induce harmful or unethical responses. Existing defence methods are predominantly white-box approaches that require access to model parameters and extensive modifications, making them costly and impractical for many real-world scenarios. Although some black-box defences have been proposed, they often impose input constraints or require multiple queries, limiting their effectiveness in safety-critical tasks such as autonomous driving. To address these challenges, we propose a novel black-box defence framework called \textbf{T}extual \textbf{A}nchoring for \textbf{I}mmunizing \textbf{J}ailbreak \textbf{I}mages (\textbf{TAIJI}). TAIJI leverages key phrase-based textual anchoring to enhance the model's ability to assess and mitigate the harmful content embedded within both visual and textual prompts. Unlike existing methods, TAIJI operates effectively with a single query during inference, while preserving the VLM's performance on benign tasks. Extensive experiments demonstrate that TAIJI significantly enhances the safety and reliability of VLMs, providing a practical and efficient solution for real-world deployment.
- Abstract(参考訳): 視覚言語モデル(VLM)は印象的な推論能力を示しているが、有害または非倫理的な反応を引き起こす可能性のあるジェイルブレイク攻撃には弱いままである。
既存の防御方法は、主にホワイトボックスのアプローチであり、モデルパラメータへのアクセスと広範囲な修正を必要とし、多くの現実世界のシナリオではコストがかかり実用的ではない。
いくつかのブラックボックスディフェンスは提案されているが、入力制約を課したり、複数のクエリを必要とすることが多く、自律運転のような安全クリティカルなタスクにおける有効性を制限している。
これらの課題に対処するため,新しいブラックボックス防御フレームワークである \textbf{T}extual \textbf{A}nchoring for \textbf{I}mmunizing \textbf{J}ailbreak \textbf{I}mages (\textbf{TAIJI})を提案する。
TAIJIはキーフレーズベースのテキストアンカーを活用し、視覚的およびテキスト的プロンプトに埋め込まれた有害なコンテンツを評価・緩和するモデルの能力を高める。
既存の方法とは異なり、TAIJIは推論中に単一のクエリで効果的に動作し、VLMのパフォーマンスを良質なタスクで保持する。
大規模な実験により、TAIJIはVLMの安全性と信頼性を著しく向上し、現実のデプロイメントに実用的で効率的なソリューションを提供することが示された。
関連論文リスト
- ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks [21.930305838969133]
textbfFuzzed textbfRandomized textbfFRS (textbfFRS)を導入した。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
論文 参考訳(メタデータ) (2025-02-09T12:03:59Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。
テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。
異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文 参考訳(メタデータ) (2023-09-11T07:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。