論文の概要: AMIA: Automatic Masking and Joint Intention Analysis Makes LVLMs Robust Jailbreak Defenders
- arxiv url: http://arxiv.org/abs/2505.24519v1
- Date: Fri, 30 May 2025 12:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.942156
- Title: AMIA: Automatic Masking and Joint Intention Analysis Makes LVLMs Robust Jailbreak Defenders
- Title(参考訳): AMIA:自動マスキングと共同意図分析でLVLMのロバストジェイルブレイクディフェンダーを作る
- Authors: Yuqi Zhang, Yuchun Miao, Zuchao Li, Liang Ding,
- Abstract要約: AMIAは、LVLM(Large Vision-Language Models)のための推論専用防御である
AMIAは様々なLVLMとジェイルブレイクベンチマークの防衛成功率を平均52.4%から81.7%に改善している。
- 参考スコア(独自算出の注目度): 37.81667260203377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AMIA, a lightweight, inference-only defense for Large Vision-Language Models (LVLMs) that (1) Automatically Masks a small set of text-irrelevant image patches to disrupt adversarial perturbations, and (2) conducts joint Intention Analysis to uncover and mitigate hidden harmful intents before response generation. Without any retraining, AMIA improves defense success rates across diverse LVLMs and jailbreak benchmarks from an average of 52.4% to 81.7%, preserves general utility with only a 2% average accuracy drop, and incurs only modest inference overhead. Ablation confirms both masking and intention analysis are essential for a robust safety-utility trade-off.
- Abstract(参考訳): 我々は,(1) テキスト非関連画像パッチの小さなセットを自動でマスクして敵の摂動を妨害し,(2) 応答生成前に隠れた有害な意図を発見・緩和するための共同意図分析を行う,LVLM(Large Vision-Language Models) のための軽量な推論専用ディフェンスであるAMIAを紹介した。
AMIAは再訓練なしで、様々なLVLMおよびジェイルブレイクベンチマークの防衛成功率を平均52.4%から81.7%に改善し、平均精度が2%しか低下せず一般用途を保っている。
アブレーションは、マスキングと意図分析の両方が堅牢な安全ユーティリティトレードオフに不可欠であることを確認した。
関連論文リスト
- From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。
RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。
実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文 参考訳(メタデータ) (2025-06-07T08:19:01Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - SPIRIT: Patching Speech Language Models against Jailbreak Attacks [21.299244714520828]
音声言語モデル(SLM)は、音声命令による自然な対話を可能にする。
我々は、敵の攻撃を分析し、SLMが脱獄攻撃に対してかなり脆弱であることを示す。
セキュリティ向上のために,推論時に介入するポストホック・パッチ・ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-18T21:51:24Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。