Fugu-MT 論文翻訳(概要): Intention Analysis Makes LLMs A Good Jailbreak Defender

論文の概要: Intention Analysis Makes LLMs A Good Jailbreak Defender

arxiv url: http://arxiv.org/abs/2401.06561v4
Date: Mon, 16 Dec 2024 08:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:57.763453
Title: Intention Analysis Makes LLMs A Good Jailbreak Defender
Title（参考訳）: 意図分析でLLMがジェイルブレイクのディフェンダーになる
Authors: Yuqi Zhang, Liang Ding, Lefei Zhang, Dacheng Tao,
Abstract要約: 我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。 $mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
参考スコア（独自算出の注目度）: 79.4014719271075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aligning large language models (LLMs) with human values, particularly when facing complex and stealthy jailbreak attacks, presents a formidable challenge. Unfortunately, existing methods often overlook this intrinsic nature of jailbreaks, which limits their effectiveness in such complex scenarios. In this study, we present a simple yet highly effective defense strategy, i.e., Intention Analysis ($\mathbb{IA}$). $\mathbb{IA}$ works by triggering LLMs' inherent self-correct and improve ability through a two-stage process: 1) analyzing the essential intention of the user input, and 2) providing final policy-aligned responses based on the first round conversation. Notably, $\mathbb{IA}$ is an inference-only method, thus could enhance LLM safety without compromising their helpfulness. Extensive experiments on varying jailbreak benchmarks across a wide range of LLMs show that $\mathbb{IA}$ could consistently and significantly reduce the harmfulness in responses (averagely -48.2% attack success rate). Encouragingly, with our $\mathbb{IA}$, Vicuna-7B even outperforms GPT-3.5 regarding attack success rate. We empirically demonstrate that, to some extent, $\mathbb{IA}$ is robust to errors in generated intentions. Further analyses reveal the underlying principle of $\mathbb{IA}$: suppressing LLM's tendency to follow jailbreak prompts, thereby enhancing safety.
Abstract（参考訳）: 大規模言語モデル(LLM)に人的価値を持たせることは、特に複雑でステルスなジェイルブレイク攻撃に直面している場合、恐ろしい挑戦となる。残念ながら、既存のメソッドは、このような複雑なシナリオにおけるそれらの有効性を制限しているジェイルブレイクの本質的な性質をしばしば見落としている。本研究では,意図分析(\mathbb{IA}$)という,シンプルで効果的な防衛戦略を提案する。 $\mathbb{IA}$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。 1)ユーザ入力の本質的意図の分析,及び 2)第1ラウンドの会話に基づいて最終方針に沿った回答を提供する。特に$\mathbb{IA}$ は推論のみの手法であり、LCMの安全性をその有用性を損なうことなく向上させることができる。幅広いLSMの様々なジェイルブレイクベンチマークに関する大規模な実験は、$\mathbb{IA}$が応答の有害性(平均-48.2%の攻撃成功率)を一貫して、著しく低減できることを示している。われわれの$\mathbb{IA}$で、Vicuna-7Bは攻撃成功率に関してGPT-3.5を上回っている。経験的に、ある意味で$\mathbb{IA}$は生成された意図の誤りに対して堅牢であることを示す。さらなる分析により、$\mathbb{IA}$: LLMのジェイルブレイクプロンプトに従う傾向を抑え、安全性を高める。

関連論文リスト

xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文参考訳（メタデータ） (2024-12-06T18:02:59Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。 ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。 PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文参考訳（メタデータ） (2024-01-12T16:13:24Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文参考訳（メタデータ） (2023-10-10T20:15:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。