Fugu-MT 論文翻訳(概要): AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens

論文の概要: AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens

arxiv url: http://arxiv.org/abs/2406.03805v1
Date: Thu, 6 Jun 2024 07:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 16:09:36.671191
Title: AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens
Title（参考訳）: AutoJailbreak: 依存レンズで脱獄と防御を調査
Authors: Lin Lu, Hai Yan, Zenghui Yuan, Jiawen Shi, Wenqi Wei, Pin-Yu Chen, Pan Zhou,
Abstract要約: 本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
参考スコア（独自算出の注目度）: 83.08119913279488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Jailbreak attacks in large language models (LLMs) entail inducing the models to generate content that breaches ethical and legal norm through the use of malicious prompts, posing a substantial threat to LLM security. Current strategies for jailbreak attack and defense often focus on optimizing locally within specific algorithmic frameworks, resulting in ineffective optimization and limited scalability. In this paper, we present a systematic analysis of the dependency relationships in jailbreak attack and defense techniques, generalizing them to all possible attack surfaces. We employ directed acyclic graphs (DAGs) to position and analyze existing jailbreak attacks, defenses, and evaluation methodologies, and propose three comprehensive, automated, and logical frameworks. \texttt{AutoAttack} investigates dependencies in two lines of jailbreak optimization strategies: genetic algorithm (GA)-based attacks and adversarial-generation-based attacks, respectively. We then introduce an ensemble jailbreak attack to exploit these dependencies. \texttt{AutoDefense} offers a mixture-of-defenders approach by leveraging the dependency relationships in pre-generative and post-generative defense strategies. \texttt{AutoEvaluation} introduces a novel evaluation method that distinguishes hallucinations, which are often overlooked, from jailbreak attack and defense responses. Through extensive experiments, we demonstrate that the proposed ensemble jailbreak attack and defense framework significantly outperforms existing research.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるジェイルブレイク攻撃は、悪意のあるプロンプトの使用によって倫理的および法的な規範に違反したコンテンツを生成するためにモデルを誘導し、LLMセキュリティに重大な脅威をもたらす。現在のジェイルブレイク攻撃と防御のための戦略は、しばしば特定のアルゴリズムフレームワーク内でローカルに最適化することに重点を置いており、非効率な最適化と限られたスケーラビリティをもたらす。本稿では,ジェイルブレイク攻撃と防御技術における依存関係の体系的解析を行い,それらを可能な全ての攻撃面に一般化する。我々は、誘導非循環グラフ(DAG)を用いて、既存のジェイルブレイク攻撃、防御、評価手法の位置と分析を行い、3つの総合的、自動化され、論理的なフレームワークを提案する。 \texttt{AutoAttack} は、それぞれ遺伝的アルゴリズム(GA)ベースの攻撃と、敵世代ベースの攻撃という、2つのジェイルブレイク最適化戦略の依存関係を調査する。次に、これらの依存関係を活用するために、アンサンブルジェイルブレイク攻撃を導入します。 \texttt{AutoDefense} は、前世代および後世代防衛戦略における依存関係を活用することで、防御の混合アプローチを提供する。 \texttt{AutoEvaluation}は、しばしば見落とされがちな幻覚と、ジェイルブレイク攻撃と防御応答を区別する新しい評価手法を導入する。広範にわたる実験を通じて,本提案のアンサンブル・ジェイルブレイク攻撃と防御の枠組みが既存研究より著しく優れていたことを実証した。

関連論文リスト

Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks [57.08407099520887]
新たなジェイルブレイクに対する防御は、AIの安全性にとって重要な課題である。本稿では,目に見えないジェイルブレイクに対する堅牢性向上のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-24T17:37:25Z)
Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection [1.8374319565577155]
脱獄技術は、大規模言語モデルの安全性に重大な脅威をもたらす。ジェイルブレイク技術の有効性の理解を深めるために,構造化されたレッドチームチャレンジを実施した。我々は、50のジェイルブレイク戦略の包括的な階層的な分類法を開発し、以前の分類を7つの広い家族に集約し拡張した。
論文参考訳（メタデータ） (2025-10-14T12:34:41Z)
Proactive defense against LLM Jailbreak [28.249786308207046]
ProActは、自律的な脱獄プロセスを妨害し、誤解を招くように設計された、新しいプロアクティブな防御フレームワークである。本手法は攻撃成功率を最大92%削減する。
論文参考訳（メタデータ） (2025-10-06T17:32:40Z)
NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文参考訳（メタデータ） (2025-09-04T08:12:06Z)
ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。 ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文参考訳（メタデータ） (2025-07-14T09:05:54Z)
Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文参考訳（メタデータ） (2025-05-28T11:57:46Z)
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval [25.17143802138141]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
論文参考訳（メタデータ） (2025-05-21T16:58:14Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文参考訳（メタデータ） (2025-04-18T09:02:12Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文参考訳（メタデータ） (2024-12-20T07:29:10Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文参考訳（メタデータ） (2024-11-12T02:44:49Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。 HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文参考訳（メタデータ） (2024-08-31T06:50:07Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文参考訳（メタデータ） (2024-07-05T06:57:30Z)
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文参考訳（メタデータ） (2024-06-08T15:45:31Z)
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T15:37:15Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。