Fugu-MT 論文翻訳(概要): Tastle: Distract Large Language Models for Automatic Jailbreak Attack

論文の概要: Tastle: Distract Large Language Models for Automatic Jailbreak Attack

arxiv url: http://arxiv.org/abs/2403.08424v1
Date: Wed, 13 Mar 2024 11:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 14:43:35.829970
Title: Tastle: Distract Large Language Models for Automatic Jailbreak Attack
Title（参考訳）: Tastle: 自動脱獄攻撃のための大規模言語モデルを抽出する
Authors: Zeguan Xiao, Yan Yang, Guanhua Chen, Yun Chen
Abstract要約: 大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
参考スコア（独自算出の注目度）: 9.137714258654842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved significant advances in recent days. Extensive efforts have been made before the public release of LLMs to align their behaviors with human values. The primary goal of alignment is to ensure their helpfulness, honesty and harmlessness. However, even meticulously aligned LLMs remain vulnerable to malicious manipulations such as jailbreaking, leading to unintended behaviors. The jailbreak is to intentionally develop a malicious prompt that escapes from the LLM security restrictions to produce uncensored detrimental contents. Previous works explore different jailbreak methods for red teaming LLMs, yet they encounter challenges regarding to effectiveness and scalability. In this work, we propose Tastle, a novel black-box jailbreak framework for automated red teaming of LLMs. We designed malicious content concealing and memory reframing with an iterative optimization algorithm to jailbreak LLMs, motivated by the research about the distractibility and over-confidence phenomenon of LLMs. Extensive experiments of jailbreaking both open-source and proprietary LLMs demonstrate the superiority of our framework in terms of effectiveness, scalability and transferability. We also evaluate the effectiveness of existing jailbreak defense methods against our attack and highlight the crucial need to develop more effective and practical defense strategies.
Abstract（参考訳）: 大規模言語モデル (LLM) は近年大きな進歩を遂げている。 LLMの公開前に、その行動と人間の価値を一致させるために、広範囲にわたる努力がなされている。アライメントの第一の目的は、彼らの役に立つこと、正直であること、無害であることを保証することです。しかし、厳格に整列したLSMでさえ、ジェイルブレイクのような悪意のある操作に弱いままであり、意図しない行動に繋がる。脱獄は故意にLLMのセキュリティ制限から逃れる悪意のあるプロンプトを開発し、無検閲の有害な有害なコンテンツを生成することである。以前の作業では、レッドチームLDMのためのさまざまなjailbreakメソッドを探索していましたが、有効性とスケーラビリティに関する課題に直面しています。本研究では,LDMの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークであるTastleを提案する。我々は,不正なコンテンツの隠蔽とメモリリフレーミングを反復的最適化アルゴリズムを用いて設計し,LLMの障害性と過信現象の研究に動機づけられた。オープンソースとプロプライエタリなLDMの両方をジェイルブレイクする大規模な実験は、有効性、スケーラビリティ、転送性の観点から、我々のフレームワークの優位性を実証している。また,既存のジェイルブレイク防御手法の攻撃に対する効果を評価し,より効果的で実用的な防衛戦略を開発することの必要性を強調した。

関連論文リスト

CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations [9.952498288063532]
セキュリティアライメントにより、Large Language Model(LLM)は悪意のあるクエリに対する保護を得ることができる。 LLMのセキュリティ保護機構を解析し,攻撃と防御を組み合わせた枠組みを提案する。本手法は, LLM中間層埋め込みの線形分離性, およびジェイルブレイク攻撃の本質に基づく。
論文参考訳（メタデータ） (2025-07-08T14:45:21Z)
Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs [15.640342726041732]
ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。現在のジェイルブレイク攻撃法は、低効率、高い計算コスト、低いクロスモデル適応性といった問題に直面している。本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を組み合わせた適応型プロンプト蒸留法を提案する。
論文参考訳（メタデータ） (2025-05-26T08:27:51Z)
Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。 SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文参考訳（メタデータ） (2025-05-17T15:54:52Z)
LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-12-28T07:48:57Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文参考訳（メタデータ） (2024-12-20T07:29:10Z)
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文参考訳（メタデータ） (2024-11-27T19:00:10Z)
Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文参考訳（メタデータ） (2024-10-31T01:55:33Z)
IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。 IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。 ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文参考訳（メタデータ） (2024-06-08T15:45:31Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文参考訳（メタデータ） (2024-05-30T12:50:32Z)
Rethinking Jailbreaking through the Lens of Representation Engineering [45.70565305714579]
最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。本研究では, 特定の行動パターンを明らかにすることで, 安全性に配慮したLCMの脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-01-12T00:50:04Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。