論文の概要: Obfuscated Activations Bypass LLM Latent-Space Defenses
- arxiv url: http://arxiv.org/abs/2412.09565v1
- Date: Thu, 12 Dec 2024 18:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:31:35.331434
- Title: Obfuscated Activations Bypass LLM Latent-Space Defenses
- Title(参考訳): LLM遅延空間防衛をバイパスする難読化活性化
- Authors: Luke Bailey, Alex Serrano, Abhay Sheshadri, Mikhail Seleznyov, Jordan Taylor, Erik Jenner, Jacob Hilton, Stephen Casper, Carlos Guestrin, Scott Emmons,
- Abstract要約: 最先端の潜在空間防衛は、すべて難解なアクティベーションに対して脆弱であることを示す。
私たちの攻撃は、90%のジェイルブレイク率を維持しながら、リコールを100%から0%に削減することができる。
- 参考スコア(独自算出の注目度): 17.63957522495741
- License:
- Abstract: Recent latent-space monitoring techniques have shown promise as defenses against LLM attacks. These defenses act as scanners that seek to detect harmful activations before they lead to undesirable actions. This prompts the question: Can models execute harmful behavior via inconspicuous latent states? Here, we study such obfuscated activations. We show that state-of-the-art latent-space defenses -- including sparse autoencoders, representation probing, and latent OOD detection -- are all vulnerable to obfuscated activations. For example, against probes trained to classify harmfulness, our attacks can often reduce recall from 100% to 0% while retaining a 90% jailbreaking rate. However, obfuscation has limits: we find that on a complex task (writing SQL code), obfuscation reduces model performance. Together, our results demonstrate that neural activations are highly malleable: we can reshape activation patterns in a variety of ways, often while preserving a network's behavior. This poses a fundamental challenge to latent-space defenses.
- Abstract(参考訳): 最近の潜時空間監視技術は、LSM攻撃に対する防御として有望であることを示している。
これらの防御は、望ましくない行動を起こす前に有害な活性化を検出するスキャナーとして機能する。
モデルは、目立たない潜在状態を通じて有害な振る舞いを実行できますか?
ここでは、そのような難解な活性化について研究する。
我々は、スパースオートエンコーダ、表現探索、潜時OOD検出を含む最先端の潜時防御が、すべて難解なアクティベーションに対して脆弱であることを示す。
例えば、有害性の分類のために訓練されたプローブに対して、我々の攻撃は、90%のジェイルブレイク率を維持しながら、リコールを100%から0%に削減することができる。
しかし、難読化には限界があり、複雑なタスク(SQLコードを書く)において難読化はモデルの性能を低下させる。
ニューラルネットワークの動作を保ちながら、さまざまな方法で活性化パターンを再構築することができる。
これは、潜在宇宙防衛に根本的な課題をもたらす。
関連論文リスト
- Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Towards Imperceptible Backdoor Attack in Self-supervised Learning [34.107940147916835]
自己教師型学習モデルは、バックドア攻撃に対して脆弱である。
自己教師付き学習に有効な既存のバックドア攻撃は、しばしば顕著なトリガーを伴う。
本稿では,自己教師型モデルに対する非受容的で効果的なバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:08:31Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Perturbation Inactivation Based Adversarial Defense for Face Recognition [45.73745401760292]
ディープラーニングベースの顔認識モデルは、敵攻撃に対して脆弱である。
直感的なアプローチは、敵の摂動を不活性化し、一般的な摂動として容易に扱えるようにすることである。
対向防御のための対向的摂動不活性化法として, プラグ・アンド・プレイ型対向防御法(PIN)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:33:15Z) - Jigsaw Puzzle: Selective Backdoor Attack to Subvert Malware Classifiers [25.129280695319473]
マルウェア分類器のバックドア攻撃は,近年の防衛策により検出可能であることを示す。
我々は、マルウェア作者が他の作者のマルウェアを保護するインセンティブをほとんど、あるいは全く持っていないという重要な観察に基づいて、新しい攻撃であるJigsaw Puzzleを提案する。
JPは、マルウェア作者のサンプルの潜伏パターンを補完するトリガーを学び、トリガーと潜伏パターンがサンプルにまとめられたときにのみバックドアを起動する。
論文 参考訳(メタデータ) (2022-02-11T06:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。