論文の概要: Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defense
- arxiv url: http://arxiv.org/abs/2601.03594v1
- Date: Wed, 07 Jan 2026 05:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.130079
- Title: Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defense
- Title(参考訳): 脱獄 LLMs & VLMs: 機構, 評価, 統一防衛
- Authors: Zejian Chen, Chaozhuo Li, Chao Li, Xi Zhang, Litian Zhang, Yiming He,
- Abstract要約: 本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) に対するジェイルブレイク攻撃と防御に関する体系的な調査を行う。
ジェイルブレイクの脆弱性は、不完全な訓練データ、言語的曖昧さ、生成的不確実性などの構造的要因に由来することを強調している。
- 参考スコア(独自算出の注目度): 23.805010019559578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides a systematic survey of jailbreak attacks and defenses on Large Language Models (LLMs) and Vision-Language Models (VLMs), emphasizing that jailbreak vulnerabilities stem from structural factors such as incomplete training data, linguistic ambiguity, and generative uncertainty. It further differentiates between hallucinations and jailbreaks in terms of intent and triggering mechanisms. We propose a three-dimensional survey framework: (1) Attack dimension-including template/encoding-based, in-context learning manipulation, reinforcement/adversarial learning, LLM-assisted and fine-tuned attacks, as well as prompt- and image-level perturbations and agent-based transfer in VLMs; (2) Defense dimension-encompassing prompt-level obfuscation, output evaluation, and model-level alignment or fine-tuning; and (3) Evaluation dimension-covering metrics such as Attack Success Rate (ASR), toxicity score, query/time cost, and multimodal Clean Accuracy and Attribute Success Rate. Compared with prior works, this survey spans the full spectrum from text-only to multimodal settings, consolidating shared mechanisms and proposing unified defense principles: variant-consistency and gradient-sensitivity detection at the perception layer, safety-aware decoding and output review at the generation layer, and adversarially augmented preference alignment at the parameter layer. Additionally, we summarize existing multimodal safety benchmarks and discuss future directions, including automated red teaming, cross-modal collaborative defense, and standardized evaluation.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) に対するジェイルブレイク攻撃と防御に関する体系的な調査を行い,ジェイルブレイクの脆弱性は不完全な訓練データ,言語的曖昧さ,生成的不確実性などの構造的要因に起因することを強調した。
幻覚と脱獄を意図と引き金のメカニズムで区別する。
筆者らは,(1)攻撃次元を含むテンプレート/エンコード型,テキスト内学習操作,強化/副次的学習,LSM支援・微調整型攻撃,ならびにVLMにおけるプロンプトおよびイメージレベルの摂動とエージェントベースの伝達,(2)防衛次元の回避,出力評価,モデルレベルのアライメントや微調整,(3)攻撃成功率(ASR),毒性スコア,クエリ/タイムコスト,マルチモーダルクリーン精度,アトリビュート成功率など,3次元調査フレームワークを提案する。
従来の研究と比較すると、本調査はテキストのみからマルチモーダル設定までの全スペクトル、共有メカニズムの統合、認識層における変動一貫性と勾配感度の検出、生成層における安全認識復号と出力レビュー、パラメータ層における反対に追加された嗜好アライメントなど、統一された防御原則を提案する。
さらに、既存のマルチモーダル安全ベンチマークを要約し、自動化されたレッドチーム、クロスモーダル協調防御、標準化された評価など、今後の方向性について議論する。
関連論文リスト
- ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks [0.31984926651189866]
Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
論文 参考訳(メタデータ) (2025-10-26T11:19:47Z) - SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models [17.94525181892254]
大規模言語モデル(LLM)は、様々な分野にまたがるサービスによって、現実世界のアプリケーションにとって急速に不可欠なものになっている。
特にジェイルブレイクのプロンプトによって、モデルのアライメントを回避し、有害なアウトプットを誘導できる。
定義、脅威モデル、評価基準は様々であり、体系的な進歩と公正な比較を妨げる。
我々の研究は断片的な研究を統一し、将来の研究のための厳格な基盤を提供し、高度展開に適した堅牢で信頼性の高いLCMの開発を支援します。
論文 参考訳(メタデータ) (2025-10-17T09:38:54Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。