論文の概要: AMIA: Automatic Masking and Joint Intention Analysis Makes LVLMs Robust Jailbreak Defenders
- arxiv url: http://arxiv.org/abs/2505.24519v1
- Date: Fri, 30 May 2025 12:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.942156
- Title: AMIA: Automatic Masking and Joint Intention Analysis Makes LVLMs Robust Jailbreak Defenders
- Title(参考訳): AMIA:自動マスキングと共同意図分析でLVLMのロバストジェイルブレイクディフェンダーを作る
- Authors: Yuqi Zhang, Yuchun Miao, Zuchao Li, Liang Ding,
- Abstract要約: AMIAは、LVLM(Large Vision-Language Models)のための推論専用防御である
AMIAは様々なLVLMとジェイルブレイクベンチマークの防衛成功率を平均52.4%から81.7%に改善している。
- 参考スコア(独自算出の注目度): 37.81667260203377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AMIA, a lightweight, inference-only defense for Large Vision-Language Models (LVLMs) that (1) Automatically Masks a small set of text-irrelevant image patches to disrupt adversarial perturbations, and (2) conducts joint Intention Analysis to uncover and mitigate hidden harmful intents before response generation. Without any retraining, AMIA improves defense success rates across diverse LVLMs and jailbreak benchmarks from an average of 52.4% to 81.7%, preserves general utility with only a 2% average accuracy drop, and incurs only modest inference overhead. Ablation confirms both masking and intention analysis are essential for a robust safety-utility trade-off.
- Abstract(参考訳): 我々は,(1) テキスト非関連画像パッチの小さなセットを自動でマスクして敵の摂動を妨害し,(2) 応答生成前に隠れた有害な意図を発見・緩和するための共同意図分析を行う,LVLM(Large Vision-Language Models) のための軽量な推論専用ディフェンスであるAMIAを紹介した。
AMIAは再訓練なしで、様々なLVLMおよびジェイルブレイクベンチマークの防衛成功率を平均52.4%から81.7%に改善し、平均精度が2%しか低下せず一般用途を保っている。
アブレーションは、マスキングと意図分析の両方が堅牢な安全ユーティリティトレードオフに不可欠であることを確認した。
関連論文リスト
- Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - SPIRIT: Patching Speech Language Models against Jailbreak Attacks [21.299244714520828]
音声言語モデル(SLM)は、音声命令による自然な対話を可能にする。
我々は、敵の攻撃を分析し、SLMが脱獄攻撃に対してかなり脆弱であることを示す。
セキュリティ向上のために,推論時に介入するポストホック・パッチ・ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-18T21:51:24Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。