論文の概要: MEEA: Mere Exposure Effect-Driven Confrontational Optimization for LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2512.18755v1
- Date: Sun, 21 Dec 2025 14:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.491338
- Title: MEEA: Mere Exposure Effect-Driven Confrontational Optimization for LLM Jailbreaking
- Title(参考訳): MEEA: LLM脱獄のための単なる露光効果駆動型コンファンデーション最適化
- Authors: Jianyi Zhang, Shizhao Liu, Ziyin Zhou, Zhen Li,
- Abstract要約: マルチターン安全性の信頼性を評価するための完全に自動化されたフレームワークであるMEEAを提案する。
MEEAはセマンティックプログレッシブなプロンプトチェーンを構築し、シミュレートされたアニール戦略を使ってそれらを最適化する。
その結果,MEEAは7つのベースラインよりも攻撃成功率が高いことがわかった。
- 参考スコア(独自算出の注目度): 10.331506725187038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has intensified concerns about the robustness of their safety alignment. While existing jailbreak studies explore both single-turn and multi-turn strategies, most implicitly assume a static safety boundary and fail to account for how contextual interactions dynamically influence model behavior, leading to limited stability and generalization. Motivated by this gap, we propose MEEA (Mere Exposure Effect Attack), a psychology-inspired, fully automated black-box framework for evaluating multi-turn safety robustness, grounded in the mere exposure effect. MEEA leverages repeated low-toxicity semantic exposure to induce a gradual shift in a model's effective safety threshold, enabling progressive erosion of alignment constraints over sustained interactions. Concretely, MEEA constructs semantically progressive prompt chains and optimizes them using a simulated annealing strategy guided by semantic similarity, toxicity, and jailbreak effectiveness. Extensive experiments on both closed-source and open-source models, including GPT-4, Claude-3.5, and DeepSeek-R1, demonstrate that MEEA consistently achieves higher attack success rates than seven representative baselines, with an average Attack Success Rate (ASR) improvement exceeding 20%. Ablation studies further validate the necessity of both annealing-based optimization and contextual exposure mechanisms. Beyond improved attack effectiveness, our findings indicate that LLM safety behavior is inherently dynamic and history-dependent, challenging the common assumption of static alignment boundaries and highlighting the need for interaction-aware safety evaluation and defense mechanisms. Our code is available at: https://github.com/Carney-lsz/MEEA
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、安全性の整合性の堅牢性に対する懸念を強めている。
既存のジェイルブレイク研究では、シングルターンとマルチターンの両方の戦略が検討されているが、最も暗黙的に静的な安全境界を仮定し、文脈的相互作用がモデル行動にどのように影響するかを説明できないため、安定性と一般化が制限される。
このギャップに触発されたMEEA(Mere Exposure Effect Attack, Mere Exposure Effect Attack)を提案する。
MEEAは、繰り返し低毒性セマンティック露光を利用して、モデルの効果的な安全性閾値の段階的なシフトを誘導し、持続的な相互作用に対するアライメント制約の段階的侵食を可能にする。
具体的には、MEEAはセマンティックなプロンプトチェーンを構築し、セマンティックな類似性、毒性、ジェイルブレイクの有効性によって導かれるシミュレートされたアニーリング戦略を用いてそれらを最適化する。
GPT-4、Claude-3.5、DeepSeek-R1といったクローズドソースモデルとオープンソースモデルの両方に対する大規模な実験は、MEEAが一貫して7つのベースラインよりも高い攻撃成功率を達成することを示した。
アブレーション研究は、アニーリングに基づく最適化と文脈暴露機構の両方の必要性をさらに検証している。
攻撃効果の向上に加えて, LLMの安全性の挙動は本質的に動的かつ履歴に依存し, 静的アライメント境界の共通仮定に挑戦し, 相互作用認識型安全性評価と防御機構の必要性を強調した。
私たちのコードは、https://github.com/Carney-lsz/MEEAで利用可能です。
関連論文リスト
- SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Enhancing Robustness of LLM-Driven Multi-Agent Systems through Randomized Smoothing [13.997409139696556]
本稿では,大型言語モデル(LLM)の安全性向上のための枠組みとして,航空宇宙などの安全クリティカル領域におけるマルチエージェントシステム(MAS)について述べる。
統計的ロバスト性証明手法であるランダム化スムーシングをMASコンセンサス・コンテキストに適用し、敵の影響下でのエージェント決定に対する確率的保証を可能にする。
論文 参考訳(メタデータ) (2025-07-05T17:26:08Z) - JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models [26.838410830637304]
VLM(Vision-Language Models)は優れた性能を示すが、強力な視覚エンコーダの統合により攻撃面が大幅に拡張されている。
安全境界探索と安全境界交差という2つの段階からなる新しい遅延宇宙脱獄フレームワークであるJailBoundを提案する。
以上の結果から,JailBoundは平均94.32%のホワイトボックス,67.28%のブラックボックス攻撃を達成し,SOTA法より6.17%,21.13%高い結果を得た。
論文 参考訳(メタデータ) (2025-05-26T07:23:00Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。