論文の概要: HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States
- arxiv url: http://arxiv.org/abs/2502.14744v2
- Date: Fri, 21 Feb 2025 03:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:08.922825
- Title: HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States
- Title(参考訳): HiddenDetect:隠れ状態のモニタリングによる大規模視覚言語モデルに対する脱獄攻撃の検出
- Authors: Yilei Jiang, Xinyan Gao, Tianshuo Peng, Yingshui Tan, Xiaoyong Zhu, Bo Zheng, Xiangyu Yue,
- Abstract要約: 本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 17.601328965546617
- License:
- Abstract: The integration of additional modalities increases the susceptibility of large vision-language models (LVLMs) to safety risks, such as jailbreak attacks, compared to their language-only counterparts. While existing research primarily focuses on post-hoc alignment techniques, the underlying safety mechanisms within LVLMs remain largely unexplored. In this work , we investigate whether LVLMs inherently encode safety-relevant signals within their internal activations during inference. Our findings reveal that LVLMs exhibit distinct activation patterns when processing unsafe prompts, which can be leveraged to detect and mitigate adversarial inputs without requiring extensive fine-tuning. Building on this insight, we introduce HiddenDetect, a novel tuning-free framework that harnesses internal model activations to enhance safety. Experimental results show that {HiddenDetect} surpasses state-of-the-art methods in detecting jailbreak attacks against LVLMs. By utilizing intrinsic safety-aware patterns, our method provides an efficient and scalable solution for strengthening LVLM robustness against multimodal threats. Our code will be released publicly at https://github.com/leigest519/HiddenDetect.
- Abstract(参考訳): 追加のモダリティの統合は、大きな視覚言語モデル(LVLM)の、ジェイルブレイク攻撃のような安全リスクへの感受性を、言語のみのモデルと比べて高める。
既存の研究は主にポストホックアライメント技術に焦点が当てられているが、LVLMの基本的な安全性メカニズムはほとんど解明されていない。
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
以上の結果から,LVLMは安全でないプロンプトの処理において,広範囲な微調整を必要とせず,対向入力の検出・緩和に活用できることが判明した。
この知見に基づいてHiddenDetectを紹介します。HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークです。
実験の結果,HiddenDetect は LVLM に対するjailbreak 攻撃の検出において最先端の手法を超越していることがわかった。
本手法は, 本手法により, マルチモーダル脅威に対するLVLMロバスト性を強化するための, 効率的かつスケーラブルなソリューションを提供する。
私たちのコードはhttps://github.com/leigest519/HiddenDetect.comで公開されます。
関連論文リスト
- Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update [8.739132798784777]
視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。
本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。
我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
論文 参考訳(メタデータ) (2025-01-24T06:17:22Z) - Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。
この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。
これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文 参考訳(メタデータ) (2025-01-03T07:01:15Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。