論文の概要: Adversarial Suffixes May Be Features Too!
- arxiv url: http://arxiv.org/abs/2410.00451v1
- Date: Sat, 5 Oct 2024 17:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:36:46.212187
- Title: Adversarial Suffixes May Be Features Too!
- Title(参考訳): 敵のサフィックスも機能するかもしれない!
- Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun,
- Abstract要約: ジェイルブレイク攻撃によって生じる敵の接尾辞には有意義な特徴がある可能性が示唆された。
これは、トレーニングデータ内の良質な特徴を支配することによって引き起こされる致命的なリスクを強調します。
- 参考スコア(独自算出の注目度): 10.463762448166714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant ongoing efforts in safety alignment, large language models (LLMs) such as GPT-4 and LLaMA 3 remain vulnerable to jailbreak attacks that can induce harmful behaviors, including those triggered by adversarial suffixes. Building on prior research, we hypothesize that these adversarial suffixes are not mere bugs but may represent features that can dominate the LLM's behavior. To evaluate this hypothesis, we conduct several experiments. First, we demonstrate that benign features can be effectively made to function as adversarial suffixes, i.e., we develop a feature extraction method to extract sample-agnostic features from benign dataset in the form of suffixes and show that these suffixes may effectively compromise safety alignment. Second, we show that adversarial suffixes generated from jailbreak attacks may contain meaningful features, i.e., appending the same suffix to different prompts results in responses exhibiting specific characteristics. Third, we show that such benign-yet-safety-compromising features can be easily introduced through fine-tuning using only benign datasets, i.e., even in the absence of harmful content. This highlights the critical risk posed by dominating benign features in the training data and calls for further research to reinforce LLM safety alignment. Our code and data is available at \url{https://github.com/anonymous}.
- Abstract(参考訳): GPT-4 や LLaMA 3 のような大規模言語モデル(LLM)は、安全確保の取り組みが進行中であるにもかかわらず、敵の接尾辞によって引き起こされるような有害な行動を引き起こす可能性のあるジェイルブレイク攻撃に対して脆弱なままである。
先行研究に基づいて,これらの逆行性接尾辞は単なるバグではなく,LCMの行動に支配的な特徴を表わす可能性があると仮定した。
この仮説を評価するために、我々はいくつかの実験を行った。
まず,良性特徴を逆接接尾辞として効果的に機能させること,すなわち,良性データセットからサンプル非依存の特徴を接尾辞の形で抽出する特徴抽出法を開発し,それらの接尾辞が安全アライメントを効果的に損なうことを示した。
第2に,ジェイルブレイク攻撃によって生じる敵の接尾辞には意味のある特徴,すなわち,異なるプロンプトに同じ接尾辞を付加することにより,特定の特徴を示す応答が生じる可能性があることを示す。
第三に、有害なコンテンツがない場合でも、良性データセットのみを用いて微調整することで、このような良性-安全-妥協機能を簡単に導入できることが示される。
このことは、トレーニングデータの良質な特徴を支配下に置くことによって引き起こされる重大なリスクを浮き彫りにし、LSMの安全性の整合性を強化するためのさらなる研究を求める。
私たちのコードとデータは \url{https://github.com/anonymous} で利用可能です。
関連論文リスト
- Can You Trust Your Metric? Automatic Concatenation-Based Tests for Metric Validity [9.355471292024061]
GPTをベースとした有害度検出指標は、決定フリッピング現象を示す。
GPT-4oのような高度な計量でさえ、入力順序に非常に敏感である。
論文 参考訳(メタデータ) (2024-08-22T09:57:57Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks [2.8186733524862158]
現在のテキスト生成モデルは、機密情報を含む可能性がある実際のデータを使って訓練される。
本稿では,断片化されたデータをランダムにグループ化されたドメイン固有の短いフレーズの形で見る,より安全な代替手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T12:09:55Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM
Jailbreakers [80.18953043605696]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。