Fugu-MT 論文翻訳(概要): Certifying LLM Safety against Adversarial Prompting

論文の概要: Certifying LLM Safety against Adversarial Prompting

arxiv url: http://arxiv.org/abs/2309.02705v2
Date: Tue, 28 Nov 2023 01:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 14:46:18.738040
Title: Certifying LLM Safety against Adversarial Prompting
Title（参考訳）: 対向プロンプトに対するllm安全性の検証
Authors: Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil Feizi and Himabindu Lakkaraju
Abstract要約: 大きな言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。敵の攻撃は悪質に設計されたトークンのシーケンスを追加しますモデルの安全ガードをバイパスする有害なプロンプトに安全保証を検証し、敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
参考スコア（独自算出の注目度）: 75.19953634352258
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) released for public use incorporate guardrails to ensure their output is safe, often referred to as "model alignment." An aligned language model should decline a user's request to produce harmful content. However, such safety measures are vulnerable to adversarial attacks, which add maliciously designed token sequences to a harmful prompt to bypass the model's safety guards. In this work, we introduce erase-and-check, the first framework to defend against adversarial prompts with verifiable safety guarantees. We defend against three attack modes: i) adversarial suffix, which appends an adversarial sequence at the end of the prompt; ii) adversarial insertion, where the adversarial sequence is inserted anywhere in the middle of the prompt; and iii) adversarial infusion, where adversarial tokens are inserted at arbitrary positions in the prompt, not necessarily as a contiguous block. Our experimental results demonstrate that this procedure can obtain strong certified safety guarantees on harmful prompts while maintaining good empirical performance on safe prompts. For example, against adversarial suffixes of length 20, it certifiably detects 92% of harmful prompts and labels 94% of safe prompts correctly using the open-source language model Llama 2 as the safety filter. We further improve the filter's performance, in terms of accuracy and speed, by replacing Llama 2 with a DistilBERT safety classifier fine-tuned on safe and harmful prompts. Additionally, we propose two efficient empirical defenses: i) RandEC, a randomized version of erase-and-check that evaluates the safety filter on a small subset of the erased subsequences, and ii) GradEC, a gradient-based version that optimizes the erased tokens to remove the adversarial sequence. The code for our experiments is available at https://github.com/aounon/certified-llm-safety.
Abstract（参考訳）: 一般向けにリリースされた大型言語モデル(llm)は、出力が安全であることを保証するためにguardrailsを組み込んでいる。整列型言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。しかし、このような安全対策は敵の攻撃に弱いため、悪意ある設計のトークンシーケンスをモデルの安全ガードをバイパスする有害なプロンプトに追加する。本稿では,検証可能な安全性保証によって敵のプロンプトから防御する最初のフレームワークである消去・チェックを紹介する。我々は3つの攻撃モードに対して防御する。一相手方の接尾辞で、プロンプトの終わりに相手方の接尾辞を付すもの二相手方の挿入であって、相手方のシーケンスがプロンプトの中央のどこにでも挿入されているもの三敵トークンをそのプロンプトにおいて任意の位置に挿入する場合であって、必ずしも連続ブロックではないもの実験結果から, 安全プロンプトの安全性が保証され, 安全プロンプトの良好な試験性能が維持できることがわかった。例えば、長さ20の敵の接尾辞に対して、有害なプロンプトの92%を確実に検出し、オープンソースの言語モデルであるLlama 2を安全フィルタとして、安全なプロンプトの94%を正しく検出する。我々は,安全かつ有害なプロンプトを微調整したディチルバート安全分類器をllama 2に置き換えることで,精度と速度の面でフィルタの性能をさらに向上させる。さらに,2つの効果的な実証的防御法を提案する。 i) 消去されたサブシーケンスの小さなサブセット上で安全フィルタを評価する消去・チェックのランダム化バージョンであるrandec ii) gradecは,消去されたトークンを最適化して逆シーケンスを削除する勾配ベースのバージョンである。私たちの実験のコードはhttps://github.com/aounon/certified-llm-safetyで利用可能です。

関連論文リスト

SecurityLingua: Efficient Defense of LLM Jailbreak Attacks via Security-Aware Prompt Compression [11.839827036296649]
大規模言語モデル(LLM)は、安全アライメント後も悪意のある攻撃に対して脆弱である。我々は,LLMをジェイルブレイク攻撃から守るための効果的かつ効率的なアプローチであるSecurityLinguaを提案する。迅速な圧縮により、SecurityLinguaは既存のすべての防御方法と比較して、無視できるオーバーヘッドと余分なトークンコストしか発生しない。
論文参考訳（メタデータ） (2025-06-15T03:39:13Z)
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文参考訳（メタデータ） (2025-05-12T01:26:50Z)
Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文参考訳（メタデータ） (2025-02-10T09:15:56Z)
The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文参考訳（メタデータ） (2025-01-27T12:48:47Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文参考訳（メタデータ） (2024-10-29T06:54:00Z)
LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文参考訳（メタデータ） (2024-10-03T19:07:53Z)
Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文参考訳（メタデータ） (2024-07-09T13:35:54Z)
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文参考訳（メタデータ） (2024-04-21T22:18:13Z)
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文参考訳（メタデータ） (2024-02-25T20:36:03Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文参考訳（メタデータ） (2024-02-09T09:09:39Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
An LLM can Fool Itself: A Prompt-Based Adversarial Attack [26.460067102821476]
本稿では, プロンプトベースの対向攻撃(PromptAttack)を用いて, LLMの対向ロバスト性を評価する効率的なツールを提案する。 PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。 Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。
論文参考訳（メタデータ） (2023-10-20T08:16:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。