Fugu-MT 論文翻訳(概要): Information-Theoretical Principled Trade-off between Jailbreakability and Stealthiness on Vision Language Models

論文の概要: Information-Theoretical Principled Trade-off between Jailbreakability and Stealthiness on Vision Language Models

arxiv url: http://arxiv.org/abs/2410.01438v1
Date: Wed, 2 Oct 2024 11:40:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 21:09:23.632834
Title: Information-Theoretical Principled Trade-off between Jailbreakability and Stealthiness on Vision Language Models
Title（参考訳）: 視覚言語モデルにおけるジェイルブレーカビリティとステルスネス間の情報理論原則トレードオフ
Authors: Ching-Chia Kao, Chia-Mu Yu, Chun-Shien Lu, Chu-Song Chen,
Abstract要約: 本稿では,視覚言語モデル(VLM)におけるジェイルブレイク可能性とステルスネスのトレードオフについて検討する。本研究では,非スティルシージェイルブレイク攻撃を検知し,モデルロバスト性を高める新しいアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 23.347349690954452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Vision-Language Models (VLMs) have demonstrated significant advancements in artificial intelligence, transforming tasks across various domains. Despite their capabilities, these models are susceptible to jailbreak attacks, which can compromise their safety and reliability. This paper explores the trade-off between jailbreakability and stealthiness in VLMs, presenting a novel algorithm to detect non-stealthy jailbreak attacks and enhance model robustness. We introduce a stealthiness-aware jailbreak attack using diffusion models, highlighting the challenge of detecting AI-generated content. Our approach leverages Fano's inequality to elucidate the relationship between attack success rates and stealthiness scores, providing an explainable framework for evaluating these threats. Our contributions aim to fortify AI systems against sophisticated attacks, ensuring their outputs remain aligned with ethical standards and user expectations.
Abstract（参考訳）: 近年、ビジョン・ランゲージ・モデル(VLM)は人工知能の大幅な進歩を示し、様々な領域でタスクを変換している。それらの能力にもかかわらず、これらのモデルはジェイルブレイク攻撃の影響を受けやすいため、安全性と信頼性を損なう可能性がある。本稿では,VLMにおける脱獄性と盗難のトレードオフを考察し,非盗難脱獄攻撃を検知し,モデルロバスト性を高める新しいアルゴリズムを提案する。拡散モデルを用いたステルスネスを意識したジェイルブレイク攻撃を導入し,AI生成コンテンツ検出の課題を強調した。我々のアプローチは、ファノの不平等を利用して、攻撃の成功率とステルスネススコアの関係を解明し、これらの脅威を評価するための説明可能なフレームワークを提供する。当社のコントリビューションは、高度な攻撃に対してAIシステムを強化し、そのアウトプットが倫理基準とユーザの期待に沿うことを保証することを目的としています。

関連論文リスト

Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T11:52:24Z)
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文参考訳（メタデータ） (2025-03-08T17:33:55Z)
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-04T20:25:12Z)
How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation [39.44000290664494]
ジェイルブレイク攻撃は、生成モデルのビルトインセーフをバイパスする有害なプロンプトであり、モデルの脆弱性に対する深刻な懸念を引き起こす。本稿では,標準生成タスクをバイナリ分類問題として再検討することにより,ジェイルブレイク防御を体系的に検討する。我々は,全てのクエリに対する拒絶率を増加させる安全性シフトと,有害な入力と良質な入力を区別するモデルの能力を向上させる有害性判別という2つの主要な防御メカニズムを同定する。
論文参考訳（メタデータ） (2025-02-20T12:07:40Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Antelope: Potent and Concealed Jailbreak Attack Strategy [7.970002819722513]
Antelopeは、ジェネレーティブモデル固有のセキュリティ脆弱性を明らかにするために設計された、より堅牢で隠蔽されたジェイルブレイク攻撃戦略である。我々は、オンラインブラックボックスサービスに侵入するために、モデルベースの攻撃の転送可能性を利用することに成功した。
論文参考訳（メタデータ） (2024-12-11T07:22:51Z)
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文参考訳（メタデータ） (2024-11-24T05:28:07Z)
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.031628043029244]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
論文参考訳（メタデータ） (2024-11-14T07:51:51Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。 Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文参考訳（メタデータ） (2024-11-11T10:02:49Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。コンテキスト関連性を維持し、検出可能性を最小限にする。
論文参考訳（メタデータ） (2024-10-13T11:15:38Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文参考訳（メタデータ） (2024-02-25T20:36:03Z)
Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文参考訳（メタデータ） (2024-01-16T12:15:39Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。このような攻撃がなぜ成功し、どのように発生できるかを考察する。障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文参考訳（メタデータ） (2023-07-05T17:58:10Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。