Fugu-MT 論文翻訳(概要): PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

論文の概要: PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

arxiv url: http://arxiv.org/abs/2405.07932v2
Date: Tue, 14 May 2024 15:56:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 12:58:58.111498
Title: PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition
Title（参考訳）: PARDEN、リピートできるの? 繰り返しで脱獄を防げる
Authors: Ziyang Zhang, Qizhen Zhang, Jakob Foerster,
Abstract要約: 大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。 Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。 PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
参考スコア（独自算出の注目度）: 10.476666078206783
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) have shown success in many natural language processing tasks. Despite rigorous safety alignment processes, supposedly safety-aligned LLMs like Llama 2 and Claude 2 are still susceptible to jailbreaks, leading to security risks and abuse of the models. One option to mitigate such risks is to augment the LLM with a dedicated "safeguard", which checks the LLM's inputs or outputs for undesired behaviour. A promising approach is to use the LLM itself as the safeguard. Nonetheless, baseline methods, such as prompting the LLM to self-classify toxic content, demonstrate limited efficacy. We hypothesise that this is due to domain shift: the alignment training imparts a self-censoring behaviour to the model ("Sorry I can't do that"), while the self-classify approach shifts it to a classification format ("Is this prompt malicious"). In this work, we propose PARDEN, which avoids this domain shift by simply asking the model to repeat its own outputs. PARDEN neither requires finetuning nor white box access to the model. We empirically verify the effectiveness of our method and show that PARDEN significantly outperforms existing jailbreak detection baselines for Llama-2 and Claude-2. Code and data are available at https://github.com/Ed-Zh/PARDEN. We find that PARDEN is particularly powerful in the relevant regime of high True Positive Rate (TPR) and low False Positive Rate (FPR). For instance, for Llama2-7B, at TPR equal to 90%, PARDEN accomplishes a roughly 11x reduction in the FPR from 24.8% to 2.0% on the harmful behaviours dataset.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。厳格な安全確保プロセスにもかかわらず、Llama 2やClaude 2のような安全性に配慮したLCMは依然としてジェイルブレイクの影響を受けており、セキュリティ上のリスクとモデルの悪用につながっている。このようなリスクを軽減するための選択肢の1つは、LLMの入力や望ましくない動作の出力をチェックする専用の"セーフガード"でLLMを増強することである。有望なアプローチは、LLM自体をセーフガードとして使用することだ。それにもかかわらず、LSMに毒性物質を自己分類するよう促すようなベースライン法は、限られた有効性を示す。アライメントトレーニングはモデルに自己検閲の振る舞いを与える("Sorry I can't do it")。本研究では、モデルに自身の出力をリピートするように要求するだけで、ドメインシフトを回避するPARDENを提案する。 PARDENは、モデルへの微調整もホワイトボックスアクセスも必要としない。提案手法の有効性を実証的に検証し,PARDENがLlama-2とClaude-2の既存のジェイルブレイク検出基準を著しく上回っていることを示す。コードとデータはhttps://github.com/Ed-Zh/PARDENで公開されている。 PARDENは特に、高い真正性率(TPR)と低い偽正性率(FPR)の関連体制において強力であることがわかった。例えば、Llama2-7Bの場合、TPRが90%に等しい場合、PARDENは有害な行動データセットでFPRを24.8%から2.0%に約11倍削減する。

関連論文リスト

Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。 LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文参考訳（メタデータ） (2025-01-27T22:13:05Z)
LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文参考訳（メタデータ） (2024-12-06T18:02:59Z)
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems [0.0]
我々は,PCJailbreakの概念を導入し,これらの安全性に起因したバイアスによって引き起こされる固有のリスクを強調した。生成前に防御プロンプトを注入することでジェイルブレイクを防ぎ,効率的な防御手法であるPCDefenseを提案する。
論文参考訳（メタデータ） (2024-10-17T08:46:09Z)
Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。実験の結果,ラマ2-7Bは94%の成功率を示した。
論文参考訳（メタデータ） (2024-10-15T12:08:14Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文参考訳（メタデータ） (2024-03-01T03:29:54Z)
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates [55.69224221154593]
一見安全なデータセットの微調整さえも、モデル内の安全でない振る舞いを引き起こす可能性がある。セーフテスト(PTST)戦略 - 安全プロンプトのない微調整モデルを提案するが、テスト時に含める。
論文参考訳（メタデータ） (2024-02-28T18:23:49Z)
TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification [41.25887364156612]
ブラックボックス認証(BBIV)の新たな指紋認証問題について述べる。目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することである。本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。
論文参考訳（メタデータ） (2024-02-20T13:20:39Z)
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文参考訳（メタデータ） (2024-02-19T18:16:51Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10～20倍である。本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文参考訳（メタデータ） (2023-12-08T01:41:36Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。