Fugu-MT 論文翻訳(概要): Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models

論文の概要: Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models

arxiv url: http://arxiv.org/abs/2412.17034v1
Date: Sun, 22 Dec 2024 14:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.229256
Title: Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models
Title（参考訳）: 安全境界の形成:大規模言語モデルにおけるジェイルブレイクの理解と予防
Authors: Lang Gao, Xiangliang Zhang, Preslav Nakov, Xiuying Chen,
Abstract要約: 大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
参考スコア（独自算出の注目度）: 59.25318174362368
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Jailbreaking in Large Language Models (LLMs) is a major security concern as it can deceive LLMs to generate harmful text. Yet, there is still insufficient understanding of how jailbreaking works, which makes it hard to develop effective defense strategies. We aim to shed more light into this issue: we conduct a detailed large-scale analysis of seven different jailbreak methods and find that these disagreements stem from insufficient observation samples. In particular, we introduce \textit{safety boundary}, and we find that jailbreaks shift harmful activations outside that safety boundary, where LLMs are less sensitive to harmful information. We also find that the low and the middle layers are critical in such shifts, while deeper layers have less impact. Leveraging on these insights, we propose a novel defense called \textbf{Activation Boundary Defense} (ABD), which adaptively constrains the activations within the safety boundary. We further use Bayesian optimization to selectively apply the defense method to the low and the middle layers. Our experiments on several benchmarks show that ABD achieves an average DSR of over 98\% against various forms of jailbreak attacks, with less than 2\% impact on the model's general capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるジェイルブレイクは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。しかし、脱獄の仕組みについてはまだ理解されていないため、効果的な防衛戦略の開発は困難である。我々は7つの異なるジェイルブレイク法を詳細に分析し、これらの相違点が不十分な観察サンプルに起因することを発見した。特に、textit{safety boundary}を導入し、LLMが有害情報に敏感でない場合、ジェイルブレイクが安全境界の外で有害なアクティベーションをシフトすることを発見した。また、低い層と中間層はそのようなシフトにおいて重要であり、深い層は影響が少ないこともわかりました。これらの知見を生かして、安全境界内での活性化を適応的に抑制する「textbf{Activation Boundary Defense} (ABD)」という新しい防衛法を提案する。さらにベイズ最適化を用いて, 防御法を低層および中層に選択的に適用する。いくつかのベンチマークで実験したところ、ABDは、様々な種類のジェイルブレイク攻撃に対して平均98%以上のDSRを達成でき、モデルの汎用能力に2倍未満の影響を及ぼすことがわかった。

関連論文リスト

Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文参考訳（メタデータ） (2026-02-12T02:43:17Z)
Jailbreaking in the Haystack [64.82605038772253]
NINJA(Needle-in-haystack jailbreak attackの略)は、有害なユーザ目標に良質なモデル生成コンテンツを追加することで、LMをジェイルブレイクする手法である。我々は、NINJAがLLaMA、Qwen、Mistral、Geminiを含む最先端のオープンおよびプロプライエタリモデルの攻撃成功率を著しく向上させることを示した。これらの知見は、注意深いゴール位置決めを施された長いコンテキストでさえ、現代のLMに根本的な脆弱性をもたらすことを示している。
論文参考訳（メタデータ） (2025-11-05T01:12:50Z)
Unraveling LLM Jailbreaks Through Safety Knowledge Neurons [26.157477756143166]
本稿では,安全関連知識ニューロンの役割に焦点をあてた新しいニューロンレベルの解釈可能性手法を提案する。安全性関連ニューロンの活性化の調節は,平均的ASRを97%以上で効果的に制御できることが示唆された。我々は,モデルロバスト性を改善するために,安全クリティカルニューロンを強化する微調整戦略であるSafeTuningを提案する。
論文参考訳（メタデータ） (2025-09-01T17:17:06Z)
Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。 Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文参考訳（メタデータ） (2025-07-06T12:19:04Z)
DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文参考訳（メタデータ） (2025-04-18T09:02:12Z)
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。安全制御理論に基づく安全ステアリングフレームワークを提案する。本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文参考訳（メタデータ） (2025-02-28T21:10:03Z)
SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
Jailbreak攻撃は、望ましくない振る舞いを引き起こすために、大きな言語モデル(LLM)の脆弱性を利用する。以前の防御は、しばしば効果と効率の両方を同時に達成できない。セーフインベンション(SafeIntervention, セーフインベンション)は, 安全を意識した表現介入を通じて, LLMをジェイルブレイク攻撃から保護する新しい防御手法である。
論文参考訳（メタデータ） (2025-02-21T17:12:35Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文参考訳（メタデータ） (2024-11-27T19:00:10Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。 HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文参考訳（メタデータ） (2024-08-31T06:50:07Z)
Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文参考訳（メタデータ） (2024-07-05T06:57:30Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳（メタデータ） (2024-05-28T13:26:12Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。