論文の概要: PAL: Proxy-Guided Black-Box Attack on Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09674v1
- Date: Thu, 15 Feb 2024 02:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:18:34.091823
- Title: PAL: Proxy-Guided Black-Box Attack on Large Language Models
- Title(参考訳): pal: 大きな言語モデルに対するプロキシ誘導ブラックボックス攻撃
- Authors: Chawin Sitawarin, Norman Mu, David Wagner, Alexandre Araujo
- Abstract要約: 大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
- 参考スコア(独自算出の注目度): 55.57987172146731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have surged in popularity in recent months, but
they have demonstrated concerning capabilities to generate harmful content when
manipulated. While techniques like safety fine-tuning aim to minimize harmful
use, recent works have shown that LLMs remain vulnerable to attacks that elicit
toxic responses. In this work, we introduce the Proxy-Guided Attack on LLMs
(PAL), the first optimization-based attack on LLMs in a black-box query-only
setting. In particular, it relies on a surrogate model to guide the
optimization and a sophisticated loss designed for real-world LLM APIs. Our
attack achieves 84% attack success rate (ASR) on GPT-3.5-Turbo and 48% on
Llama-2-7B, compared to 4% for the current state of the art. We also propose
GCG++, an improvement to the GCG attack that reaches 94% ASR on white-box
Llama-2-7B, and the Random-Search Attack on LLMs (RAL), a strong but simple
baseline for query-based attacks. We believe the techniques proposed in this
work will enable more comprehensive safety testing of LLMs and, in the long
term, the development of better security guardrails. The code can be found at
https://github.com/chawins/pal.
- Abstract(参考訳): 近年,大規模言語モデル(llm)の人気が高まっているが,操作時に有害なコンテンツを生成する能力が実証されている。
安全チューニングのような技術は、有害な使用を最小限に抑えることを目的としているが、最近の研究によると、LSMは有害な反応を引き起こす攻撃に弱いままである。
本研究では, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である PAL (Proxy-Guided Attack on LLMs) を提案する。
特に、実際のLLM API用に設計された最適化と洗練された損失を導くための代理モデルに依存しています。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
ホワイトボックスのLlama-2-7Bで94%のASRに達するGCG攻撃の改善であるGCG++や、クエリベースの攻撃の強力なシンプルなベースラインであるLLM(Landom-Search Attack on LLMs)も提案する。
本研究で提案される技術は,LLMのより包括的な安全性試験を可能にし,長期的にはより優れたセキュリティガードレールの開発が期待できる。
コードはhttps://github.com/chawins/palにある。
関連論文リスト
- Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Round Trip Translation Defence against Large Language Model Jailbreaking
Attacks [12.664577378692703]
大規模言語モデル(LLM)に対する社会工学的攻撃に対する防御のためのラウンドトリップ翻訳(RTT)手法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
私たちはMathsAttackを緩和し、攻撃の成功率を約40%削減した最初の試みです。
論文 参考訳(メタデータ) (2024-02-21T03:59:52Z) - Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit
Clues [16.97760778679782]
本稿では, LLM の防御戦略を回避し, 悪意のある応答を得る, 間接的ジェイルブレイク攻撃手法である Puzzler を提案する。
実験の結果,Puzzler はクローズドソース LLM 上で96.6% のクエリ成功率を達成した。
最先端のjailbreak検出アプローチに対してテストすると、Puzzlerはベースラインよりも検出を回避するのに効果的であることを証明している。
論文 参考訳(メタデータ) (2024-02-14T11:11:51Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Bypassing the Safety Training of Open-Source LLMs with Priming Attacks [4.07937900837479]
我々は,SOTA オープンソース LLM が単純で最適化不要な攻撃に対して脆弱であることを示す。
提案攻撃は,Llama Guardが測定した有害行動に対する攻撃成功率を,ベースラインと比較して最大3.3倍向上させる。
論文 参考訳(メタデータ) (2023-12-19T16:47:12Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。