論文の概要: Adversarial Suffixes May Be Features Too!
- arxiv url: http://arxiv.org/abs/2410.00451v1
- Date: Sat, 5 Oct 2024 17:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:36:46.212187
- Title: Adversarial Suffixes May Be Features Too!
- Title(参考訳): 敵のサフィックスも機能するかもしれない!
- Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun,
- Abstract要約: ジェイルブレイク攻撃によって生じる敵の接尾辞には有意義な特徴がある可能性が示唆された。
これは、トレーニングデータ内の良質な特徴を支配することによって引き起こされる致命的なリスクを強調します。
- 参考スコア(独自算出の注目度): 10.463762448166714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant ongoing efforts in safety alignment, large language models (LLMs) such as GPT-4 and LLaMA 3 remain vulnerable to jailbreak attacks that can induce harmful behaviors, including those triggered by adversarial suffixes. Building on prior research, we hypothesize that these adversarial suffixes are not mere bugs but may represent features that can dominate the LLM's behavior. To evaluate this hypothesis, we conduct several experiments. First, we demonstrate that benign features can be effectively made to function as adversarial suffixes, i.e., we develop a feature extraction method to extract sample-agnostic features from benign dataset in the form of suffixes and show that these suffixes may effectively compromise safety alignment. Second, we show that adversarial suffixes generated from jailbreak attacks may contain meaningful features, i.e., appending the same suffix to different prompts results in responses exhibiting specific characteristics. Third, we show that such benign-yet-safety-compromising features can be easily introduced through fine-tuning using only benign datasets, i.e., even in the absence of harmful content. This highlights the critical risk posed by dominating benign features in the training data and calls for further research to reinforce LLM safety alignment. Our code and data is available at \url{https://github.com/anonymous}.
- Abstract(参考訳): GPT-4 や LLaMA 3 のような大規模言語モデル(LLM)は、安全確保の取り組みが進行中であるにもかかわらず、敵の接尾辞によって引き起こされるような有害な行動を引き起こす可能性のあるジェイルブレイク攻撃に対して脆弱なままである。
先行研究に基づいて,これらの逆行性接尾辞は単なるバグではなく,LCMの行動に支配的な特徴を表わす可能性があると仮定した。
この仮説を評価するために、我々はいくつかの実験を行った。
まず,良性特徴を逆接接尾辞として効果的に機能させること,すなわち,良性データセットからサンプル非依存の特徴を接尾辞の形で抽出する特徴抽出法を開発し,それらの接尾辞が安全アライメントを効果的に損なうことを示した。
第2に,ジェイルブレイク攻撃によって生じる敵の接尾辞には意味のある特徴,すなわち,異なるプロンプトに同じ接尾辞を付加することにより,特定の特徴を示す応答が生じる可能性があることを示す。
第三に、有害なコンテンツがない場合でも、良性データセットのみを用いて微調整することで、このような良性-安全-妥協機能を簡単に導入できることが示される。
このことは、トレーニングデータの良質な特徴を支配下に置くことによって引き起こされる重大なリスクを浮き彫りにし、LSMの安全性の整合性を強化するためのさらなる研究を求める。
私たちのコードとデータは \url{https://github.com/anonymous} で利用可能です。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions [14.881201844063616]
本稿では,アライメント・エンハンスメント・デコーディング(Alignment-Enhanced Decoding, AED)を提案する。
5つのモデルと4つの一般的なジェイルブレイク実験を行い、その結果、我々のアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-08-14T16:51:21Z) - Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks [2.8186733524862158]
現在のテキスト生成モデルは、機密情報を含む可能性がある実際のデータを使って訓練される。
本稿では,断片化されたデータをランダムにグループ化されたドメイン固有の短いフレーズの形で見る,より安全な代替手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T12:09:55Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。