Fugu-MT 論文翻訳(概要): AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs

論文の概要: AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs

arxiv url: http://arxiv.org/abs/2404.07921v2
Date: Thu, 2 May 2024 01:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 21:21:42.701988
Title: AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs
Title（参考訳）: AmpleGCG: オープンおよびクローズドの両方のLLMをジェイルブレイクするためのユニバーサルおよびトランスファー可能な逆接尾辞生成モデル学習
Authors: Zeyi Liao, Huan Sun,
Abstract要約: GCGcitepzou2023Universalは、離散トークン最適化アルゴリズムを提案し、単一のサフィックスを最低損失で選択し、ジェイルブレイクアライメントされたLCMを成功させる。本研究では,サフィックスをトレーニングデータとして活用し,有害なクエリを与えられたサフィックスの分布をキャプチャするAmpleGCGという生成モデルを学習する。 AmpleGCGモデルは、たった4秒で1つの有害なクエリに対して200の逆サフィックスを生成することができる。
参考スコア（独自算出の注目度）: 11.094625711201648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) become increasingly prevalent and integrated into autonomous systems, ensuring their safety is imperative. Despite significant strides toward safety alignment, recent work GCG~\citep{zou2023universal} proposes a discrete token optimization algorithm and selects the single suffix with the lowest loss to successfully jailbreak aligned LLMs. In this work, we first discuss the drawbacks of solely picking the suffix with the lowest loss during GCG optimization for jailbreaking and uncover the missed successful suffixes during the intermediate steps. Moreover, we utilize those successful suffixes as training data to learn a generative model, named AmpleGCG, which captures the distribution of adversarial suffixes given a harmful query and enables the rapid generation of hundreds of suffixes for any harmful queries in seconds. AmpleGCG achieves near 100\% attack success rate (ASR) on two aligned LLMs (Llama-2-7B-chat and Vicuna-7B), surpassing two strongest attack baselines. More interestingly, AmpleGCG also transfers seamlessly to attack different models, including closed-source LLMs, achieving a 99\% ASR on the latest GPT-3.5. To summarize, our work amplifies the impact of GCG by training a generative model of adversarial suffixes that is universal to any harmful queries and transferable from attacking open-source LLMs to closed-source LLMs. In addition, it can generate 200 adversarial suffixes for one harmful query in only 4 seconds, rendering it more challenging to defend.
Abstract（参考訳）: 大規模言語モデル(LLM)がますます普及し、自律システムに統合されるにつれて、その安全性は不可欠である。近年のGCG~\citep{zou2023universal} では,安全性向上に向けた大きな前進にもかかわらず,離散トークン最適化アルゴリズムを提案し,単一サフィックスを最小の損失で選択し,ジェイルブレイクアライメントされたLDMを成功させる。本研究はまず,GCG最適化時に最も損失の少ない接尾辞のみを選択することの欠点について論じ,中間段階において失敗した接尾辞の発見を行う。さらに、これらのサフィックスをトレーニングデータとして利用して、有害なクエリを与えられた逆サフィックスの分布をキャプチャし、有害なクエリに対する数百サフィックスを数秒で高速に生成する、AmpleGCGという生成モデルを学ぶ。 AmpleGCGはLLM(Llama-2-7B-chatとVicuna-7B)上で100倍近い攻撃成功率(ASR)を達成する。さらに興味深いことに、AmpleGCGは、最新のGPT-3.5で99\%のASRを達成するために、クローズドソースLLMを含むさまざまなモデルにシームレスに転送する。要約すると、我々の研究は、いかなる有害なクエリにも普遍的で、オープンソースLSMからクローズドソースLSMへの攻撃から移行可能な逆接尾辞の生成モデルを訓練することで、GCGの影響を増幅する。さらに、1つの有害なクエリに対してわずか4秒で200の逆サフィックスを生成することができるため、防御がより困難になる。

関連論文リスト

Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.83476701024932]
Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。 AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文参考訳（メタデータ） (2024-12-11T18:37:56Z)
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。 LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文参考訳（メタデータ） (2024-11-13T18:44:30Z)
AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts [10.536276489213497]
生成モデルは、有害なクエリに対して、すばやく多数のカスタマイズ可能なジベリの逆接接尾辞を生成することができる。我々はAmpleGCG-Plusを導入した。我々はGPT-4と同じ速度で新しいGPT-4oシリーズをジェイルブレイクし、最近提案されたサーキットブレーカー防御に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-10-29T15:40:07Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文参考訳（メタデータ） (2024-10-20T11:27:41Z)
Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。 ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文参考訳（メタデータ） (2024-08-21T03:35:24Z)
Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文参考訳（メタデータ） (2024-05-31T17:07:15Z)
Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文参考訳（メタデータ） (2024-05-28T06:10:12Z)
PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文参考訳（メタデータ） (2024-02-15T02:54:49Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。