論文の概要: From Hallucinations to Jailbreaks: Rethinking the Vulnerability of Large Foundation Models
- arxiv url: http://arxiv.org/abs/2505.24232v1
- Date: Fri, 30 May 2025 05:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.78802
- Title: From Hallucinations to Jailbreaks: Rethinking the Vulnerability of Large Foundation Models
- Title(参考訳): 幻覚から脱獄へ:大規模基盤モデルの脆弱性を再考する
- Authors: Haibo Jin, Peiyan Zhang, Peiran Wang, Man Luo, Haohan Wang,
- Abstract要約: 大きな基礎モデル(LFM)は幻覚やジェイルブレイク攻撃の影響を受けやすい。
本稿では,ジェイルブレイクをトークンレベルの最適化および注意レベルの最適化として幻覚としてモデル化する統一理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.066501870239073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large foundation models (LFMs) are susceptible to two distinct vulnerabilities: hallucinations and jailbreak attacks. While typically studied in isolation, we observe that defenses targeting one often affect the other, hinting at a deeper connection. We propose a unified theoretical framework that models jailbreaks as token-level optimization and hallucinations as attention-level optimization. Within this framework, we establish two key propositions: (1) \textit{Similar Loss Convergence} - the loss functions for both vulnerabilities converge similarly when optimizing for target-specific outputs; and (2) \textit{Gradient Consistency in Attention Redistribution} - both exhibit consistent gradient behavior driven by shared attention dynamics. We validate these propositions empirically on LLaVA-1.5 and MiniGPT-4, showing consistent optimization trends and aligned gradients. Leveraging this connection, we demonstrate that mitigation techniques for hallucinations can reduce jailbreak success rates, and vice versa. Our findings reveal a shared failure mode in LFMs and suggest that robustness strategies should jointly address both vulnerabilities.
- Abstract(参考訳): 大きな基礎モデル(LFM)は幻覚とジェイルブレイク攻撃という2つの異なる脆弱性に影響を受けやすい。
通常は単独で研究されるが、一方を標的とする防御は他方に影響を与え、より深いつながりを示唆する。
本稿では,ジェイルブレイクをトークンレベルの最適化および注意レベルの最適化として幻覚としてモデル化する統一理論フレームワークを提案する。
本枠組みでは,(1) 目標固有の出力を最適化する際, 両方の脆弱性の損失関数が同様に収束する,(2) 注意力の共有による一貫した勾配挙動を示す,という2つの重要な提案を行う。
LLaVA-1.5 と MiniGPT-4 でこれらの提案を実証的に検証し,一貫した最適化傾向と整列勾配を示した。
この接続を利用することで、幻覚の緩和技術がジェイルブレイクの成功率を減少させることを示す。
LFMの共有障害モードが明らかとなり、ロバストネス戦略が両方の脆弱性に共同で対処すべきであることが示唆された。
関連論文リスト
- Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [18.37303422539757]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 [24.599707290204524]
トランスファーベースの大規模視覚言語モデル(LVLM)に対する標的攻撃は、しばしばブラックボックスの商用LVLMに対して失敗する。
本研究では,局所領域内の意味的詳細を明示的に符号化することで,意味的明瞭度を向上する手法を提案する。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-13T17:59:55Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。