Fugu-MT 論文翻訳(概要): Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization

論文の概要: Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization

arxiv url: http://arxiv.org/abs/2311.09096v1
Date: Wed, 15 Nov 2023 16:42:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 15:04:17.837062
Title: Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
Title（参考訳）: ゴール優先化による大規模言語モデルの脱獄攻撃対策
Authors: Zhexin Zhang, Junxiao Yang, Pei Ke, Minlie Huang
Abstract要約: 大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。
参考スコア（独自算出の注目度）: 74.9438024948104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) continue to advance in their capabilities, yet this progress is accompanied by a growing array of safety risks. While significant attention has been dedicated to exploiting weaknesses in LLMs through jailbreaking attacks, there remains a paucity of exploration into defending against these attacks. We point out a pivotal factor contributing to the success of jailbreaks: the inherent conflict between the goals of being helpful and ensuring safety. To counter jailbreaking attacks, we propose to integrate goal prioritization at both training and inference stages. Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking attacks, reducing it from 66.4% to 2.0% for ChatGPT and from 68.2% to 19.4% for Vicuna-33B, without compromising general performance. Furthermore, integrating the concept of goal prioritization into the training phase reduces the ASR from 71.0% to 6.6% for LLama2-13B. Remarkably, even in scenarios where no jailbreaking samples are included during training, our approach slashes the ASR by half, decreasing it from 71.0% to 34.0%. Additionally, our findings reveal that while stronger LLMs face greater safety risks, they also possess a greater capacity to be steered towards defending against such attacks. We hope our work could contribute to the comprehension of jailbreaking attacks and defenses, and shed light on the relationship between LLMs' capability and safety. Our code will be available at \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority}.
Abstract（参考訳）: 大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。脱獄攻撃によってLLMの弱点を悪用することには大きな注意が払われているが、これらの攻撃から守るための調査はいまだに行われている。我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。推論中のゴール優先化を実装することで、ジェイルブレイク攻撃のアタック成功率(ASR)が大幅に低下し、ChatGPTでは66.4%から2.0%に、Vicuna-33Bでは68.2%から19.4%に低下する。さらに、目標優先順位付けの概念をトレーニングフェーズに統合することで、LLama2-13BのASRを71.0%から6.6%に削減できる。注目すべきは、トレーニング中にジェイルブレイクサンプルを含まないシナリオでも、我々のアプローチはASRを半分に減らし、それを71.0%から34.0%に減らします。さらに,より強固なllmはより安全性の高いリスクに直面しているが,そのような攻撃に対して防御する能力も高いことが判明した。われわれの努力が、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てることを願っている。私たちのコードは \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority} で利用可能になります。

関連論文リスト

Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。 Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文参考訳（メタデータ） (2025-07-06T12:19:04Z)
Lifelong Safety Alignment for Language Models [33.90238075760236]
本稿では,脱獄防御のための生涯安全アライメントフレームワークを提案する。メタアタッカーは、新しいジェイルブレイク戦略を積極的に発見するために訓練され、ディフェンダーは彼らに対抗するために訓練される。我々のフレームワークはMeta-Attackerの成功率を7%に削減し、LLMのより安全で信頼性の高いデプロイを可能にします。
論文参考訳（メタデータ） (2025-05-26T17:40:40Z)
DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文参考訳（メタデータ） (2025-04-18T09:02:12Z)
Attention Eclipse: Manipulating Attention to Bypass LLM Safety-Alignment [5.552439217633078]
効果的な防御とモデル安全性の正確な評価を導くために、潜在的なジェイルブレイク攻撃の範囲を予測することが重要である。提案手法は,プロンプトの異なる部分の注意を選択的に強化あるいは弱めるために,モデルの注意を操作できる,効果的なジェイルブレイク攻撃を生成するための新しいアプローチである。
論文参考訳（メタデータ） (2025-02-21T09:38:00Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文参考訳（メタデータ） (2024-11-27T19:00:10Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文参考訳（メタデータ） (2024-10-31T01:55:33Z)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文参考訳（メタデータ） (2024-09-21T15:36:26Z)
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。 ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。 Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。 Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文参考訳（メタデータ） (2024-07-03T07:14:05Z)
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。 LLMはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文参考訳（メタデータ） (2024-06-13T17:01:40Z)
PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文参考訳（メタデータ） (2024-02-15T02:54:49Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。