Fugu-MT 論文翻訳(概要): Jailbreak Defense in a Narrow Domain: Limitations of Existing Methods and a New Transcript-Classifier Approach

論文の概要: Jailbreak Defense in a Narrow Domain: Limitations of Existing Methods and a New Transcript-Classifier Approach

arxiv url: http://arxiv.org/abs/2412.02159v1
Date: Tue, 03 Dec 2024 04:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.879968
Title: Jailbreak Defense in a Narrow Domain: Limitations of Existing Methods and a New Transcript-Classifier Approach
Title（参考訳）: 狭い領域におけるジェイルブレイク防御-既存手法の限界と新しいトランスクリプト分類法-
Authors: Tony T. Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir Shavit, Ethan Perez,
Abstract要約: 本稿では,狭義の行動セットを禁止したい場合に,脱獄防御の難しさについて検討する。安全訓練、敵の訓練、入出力分類器などの一般的な防御は、この問題を完全に解決できない。より良い解を求めるために、我々は、テストするベースラインディフェンスよりも優れた転写分類器ディフェンスを開発した。
参考スコア（独自算出の注目度）: 19.143050758379047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Defending large language models against jailbreaks so that they never engage in a broadly-defined set of forbidden behaviors is an open problem. In this paper, we investigate the difficulty of jailbreak-defense when we only want to forbid a narrowly-defined set of behaviors. As a case study, we focus on preventing an LLM from helping a user make a bomb. We find that popular defenses such as safety training, adversarial training, and input/output classifiers are unable to fully solve this problem. In pursuit of a better solution, we develop a transcript-classifier defense which outperforms the baseline defenses we test. However, our classifier defense still fails in some circumstances, which highlights the difficulty of jailbreak-defense even in a narrow domain.
Abstract（参考訳）: 大規模な言語モデルをジェイルブレイクに対して防御することで、広く定義された禁止された行動に決して関与しないようにすることは、オープンな問題である。本稿では,狭義の行動セットを禁止したい場合に,脱獄防御の難しさについて検討する。ケーススタディでは、LDMがユーザが爆弾を作るのを助けるのを防ぐことに重点を置いている。安全訓練、敵の訓練、入出力分類器などの一般的な防御は、この問題を完全に解決できない。より良い解を求めるために、我々は、テストするベースラインディフェンスよりも優れた転写分類器ディフェンスを開発した。しかし,いくつかの状況では分類器の防御が依然として失敗し,狭い領域においてもジェイルブレイク防御の難しさを浮き彫りにしている。

関連論文リスト

Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文参考訳（メタデータ） (2025-05-28T11:57:46Z)
DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文参考訳（メタデータ） (2025-04-18T09:02:12Z)
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。安全制御理論に基づく安全ステアリングフレームワークを提案する。本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文参考訳（メタデータ） (2025-02-28T21:10:03Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文参考訳（メタデータ） (2024-11-12T02:44:49Z)
HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。 HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文参考訳（メタデータ） (2024-08-31T06:50:07Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。 jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文参考訳（メタデータ） (2024-02-24T05:34:43Z)
JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃の大規模評価を行う。我々は17の代表的なジェイルブレイク攻撃を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。