論文の概要: Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA
- arxiv url: http://arxiv.org/abs/2406.02044v3
- Date: Tue, 06 May 2025 22:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 14:59:11.659914
- Title: Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA
- Title(参考訳): QROAを用いたLLMに対するユニバーサルおよびブラックボックスクエリ応答のみの攻撃に向けて
- Authors: Hussein Jawad, Yassine Chenik, Nicolas J. -B. Brunel,
- Abstract要約: 悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of Large Language Models (LLMs) has exposed critical security and ethical vulnerabilities, particularly their susceptibility to adversarial manipulations. This paper introduces QROA, a novel black-box jailbreak method designed to identify adversarial suffixes that can bypass LLM alignment safeguards when appended to a malicious instruction. Unlike existing suffix-based jailbreak approaches, QROA does not require access to the model's logit or any other internal information. It also eliminates reliance on human-crafted templates, operating solely through the standard query-response interface of LLMs. By framing the attack as an optimization bandit problem, QROA employs a surrogate model and token level optimization to efficiently explore suffix variations. Furthermore, we propose QROA-UNV, an extension that identifies universal adversarial suffixes for individual models, enabling one-query jailbreaks across a wide range of instructions. Testing on multiple models demonstrates Attack Success Rate (ASR) greater than 80\%. These findings highlight critical vulnerabilities, emphasize the need for advanced defenses, and contribute to the development of more robust safety evaluations for secure AI deployment. The code is made public on the following link: https://github.com/qroa/QROA
- Abstract(参考訳): LLM(Large Language Models)の急速な採用により、重大なセキュリティと倫理的脆弱性、特に敵の操作に対する感受性が明らかになった。
本稿では,悪質な命令に付加された場合のLDMアライメント保護を回避できる,敵の接尾辞を識別する新しいブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また、LLMの標準クエリ応答インタフェースを通じてのみ動作する、人為的なテンプレートへの依存を排除している。
攻撃を最適化バンディット問題とすることで、QROAはサロゲートモデルとトークンレベル最適化を用いて、サフィックスの変動を効率的に探索する。
さらに,QROA-UNVは,個々のモデルに対する普遍的な逆接接尾辞を識別する拡張であり,幅広い命令で1クエリのジェイルブレイクを可能にする。
複数のモデルでテストすると、アタック成功率(ASR)は80%以上になる。
これらの発見は、重大な脆弱性を強調し、高度な防御の必要性を強調し、セキュアなAIデプロイメントのためのより堅牢な安全性評価の開発に貢献している。
コードは以下のリンクで公開されている。 https://github.com/qroa/QROA
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search [1.223779595809275]
大規模言語モデル(LLM)から有害な振る舞いを緩和することは、モデルの適切なアライメントと安全性を確保するための重要なタスクである。
この研究は、マルコフ決定過程(MDP)として赤チームの問題を枠組み化し、モンテカルロ木探索を用いてブラックボックス、クローズドソース LLM の有害な挙動を発見する。
提案アルゴリズムであるKovは、敵の攻撃を最適化し、ブラックボックスのLSMからの応答を定期的に評価し、より有害なブラックボックス行動への探索を誘導する。
論文 参考訳(メタデータ) (2024-08-11T20:31:52Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。