Fugu-MT 論文翻訳(概要): PAL: Proxy-Guided Black-Box Attack on Large Language Models

論文の概要: PAL: Proxy-Guided Black-Box Attack on Large Language Models

arxiv url: http://arxiv.org/abs/2402.09674v1
Date: Thu, 15 Feb 2024 02:54:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 17:18:34.091823
Title: PAL: Proxy-Guided Black-Box Attack on Large Language Models
Title（参考訳）: pal: 大きな言語モデルに対するプロキシ誘導ブラックボックス攻撃
Authors: Chawin Sitawarin, Norman Mu, David Wagner, Alexandre Araujo
Abstract要約: 大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
参考スコア（独自算出の注目度）: 55.57987172146731
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have surged in popularity in recent months, but they have demonstrated concerning capabilities to generate harmful content when manipulated. While techniques like safety fine-tuning aim to minimize harmful use, recent works have shown that LLMs remain vulnerable to attacks that elicit toxic responses. In this work, we introduce the Proxy-Guided Attack on LLMs (PAL), the first optimization-based attack on LLMs in a black-box query-only setting. In particular, it relies on a surrogate model to guide the optimization and a sophisticated loss designed for real-world LLM APIs. Our attack achieves 84% attack success rate (ASR) on GPT-3.5-Turbo and 48% on Llama-2-7B, compared to 4% for the current state of the art. We also propose GCG++, an improvement to the GCG attack that reaches 94% ASR on white-box Llama-2-7B, and the Random-Search Attack on LLMs (RAL), a strong but simple baseline for query-based attacks. We believe the techniques proposed in this work will enable more comprehensive safety testing of LLMs and, in the long term, the development of better security guardrails. The code can be found at https://github.com/chawins/pal.
Abstract（参考訳）: 近年,大規模言語モデル(llm)の人気が高まっているが,操作時に有害なコンテンツを生成する能力が実証されている。安全チューニングのような技術は、有害な使用を最小限に抑えることを目的としているが、最近の研究によると、LSMは有害な反応を引き起こす攻撃に弱いままである。本研究では, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である PAL (Proxy-Guided Attack on LLMs) を提案する。特に、実際のLLM API用に設計された最適化と洗練された損失を導くための代理モデルに依存しています。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。ホワイトボックスのLlama-2-7Bで94%のASRに達するGCG攻撃の改善であるGCG++や、クエリベースの攻撃の強力なシンプルなベースラインであるLLM(Landom-Search Attack on LLMs)も提案する。本研究で提案される技術は,LLMのより包括的な安全性試験を可能にし,長期的にはより優れたセキュリティガードレールの開発が期待できる。コードはhttps://github.com/chawins/palにある。

関連論文リスト

Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。 LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文参考訳（メタデータ） (2024-11-13T18:44:30Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文参考訳（メタデータ） (2024-07-12T22:30:35Z)
QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文参考訳（メタデータ） (2024-06-04T07:27:36Z)
Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文参考訳（メタデータ） (2024-05-28T06:10:12Z)
Round Trip Translation Defence against Large Language Model Jailbreaking Attacks [11.593052831056841]
本研究では,大規模言語モデルに対する社会工学的攻撃から守るために設計された,最初のアルゴリズムを提案する。我々の防衛は、PAIR(Prompt Automatic Iterative Refinement)攻撃の70%以上を軽減できた。また、MathsAttackを緩和し、攻撃成功率を約40%削減した最初の試みです。
論文参考訳（メタデータ） (2024-02-21T03:59:52Z)
Bypassing the Safety Training of Open-Source LLMs with Priming Attacks [3.8023902618391783]
本稿では,SOTA オープンソース LLM の脆弱性を,単純かつ最適化不要な攻撃下で検討する。提案攻撃は,Llama Guardが測定した有害行動に対する攻撃成功率を,ベースラインと比較して最大3.3倍向上させる。
論文参考訳（メタデータ） (2023-12-19T16:47:12Z)
Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文参考訳（メタデータ） (2023-11-15T16:42:29Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。