論文の概要: No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks
- arxiv url: http://arxiv.org/abs/2405.16229v1
- Date: Sat, 25 May 2024 13:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:21:21.740112
- Title: No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks
- Title(参考訳): 悪は2つもない! 微調整攻撃のメカニズムを解明する
- Authors: Chak Tou Leong, Yi Cheng, Kaishuai Xu, Jian Wang, Hanlin Wang, Wenjie Li,
- Abstract要約: 我々は、最も代表的な2つの攻撃方法の分析を行う: Explicit Harmful Attack (EHA)とIdentity-Shifting Attack (ISA)である。
ISAとは異なり、EHAは有害な認識段階を積極的に狙う傾向にあり、EHAとISAは後者の2段階を妨害するが、攻撃の程度とメカニズムは著しく異なる。
- 参考スコア(独自算出の注目度): 13.610008743851157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existing safety alignment of Large Language Models (LLMs) is found fragile and could be easily attacked through different strategies, such as through fine-tuning on a few harmful examples or manipulating the prefix of the generation results. However, the attack mechanisms of these strategies are still underexplored. In this paper, we ask the following question: \textit{while these approaches can all significantly compromise safety, do their attack mechanisms exhibit strong similarities?} To answer this question, we break down the safeguarding process of an LLM when encountered with harmful instructions into three stages: (1) recognizing harmful instructions, (2) generating an initial refusing tone, and (3) completing the refusal response. Accordingly, we investigate whether and how different attack strategies could influence each stage of this safeguarding process. We utilize techniques such as logit lens and activation patching to identify model components that drive specific behavior, and we apply cross-model probing to examine representation shifts after an attack. In particular, we analyze the two most representative types of attack approaches: Explicit Harmful Attack (EHA) and Identity-Shifting Attack (ISA). Surprisingly, we find that their attack mechanisms diverge dramatically. Unlike ISA, EHA tends to aggressively target the harmful recognition stage. While both EHA and ISA disrupt the latter two stages, the extent and mechanisms of their attacks differ significantly. Our findings underscore the importance of understanding LLMs' internal safeguarding process and suggest that diverse defense mechanisms are required to effectively cope with various types of attacks.
- Abstract(参考訳): LLM(Large Language Models)の既存の安全性アライメントは脆弱で、いくつかの有害な例を微調整したり、生成結果のプレフィックスを操作するなど、さまざまな戦略を通じて容易に攻撃できる。
しかし、これらの戦略の攻撃機構はまだ解明されていない。
これらのアプローチは安全性を著しく損なう可能性があるが、攻撃メカニズムは強い類似性を示すのか?
2) 有害な指示に遭遇した場合のLLMの保護プロセスは,(1)有害な指示の認識,(2)最初の拒絶音の発生,(3)拒絶反応の完了の3段階に分けられる。
そこで我々は,この保護プロセスの各段階において,異なる攻撃戦略がどのような影響を及ぼすかを検討した。
我々は、ロジットレンズやアクティベーションパッチなどの技術を用いて、特定の動作を駆動するモデルコンポーネントを特定し、攻撃後の表現シフトを調べるためにクロスモデルプローブを適用した。
特に、最も代表的な攻撃方法として、EHA(Explicit Harmful Attack)とISA(Identity-Shifting Attack)がある。
驚くべきことに、攻撃機構は劇的に多様化している。
ISAとは異なり、EHAは有害な認識段階を積極的に標的とする傾向がある。
EHAとISAの両方が後者の2つの段階を妨害するが、攻撃の程度と機構は大きく異なる。
本研究は, LLMの内部保護プロセスの理解の重要性を浮き彫りにして, 各種攻撃に効果的に対処するためには, 多様な防御機構が必要であることを示唆している。
関連論文リスト
- You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Mitigating Label Flipping Attacks in Malicious URL Detectors Using
Ensemble Trees [16.16333915007336]
悪意のあるURLは、交通、医療、エネルギー、銀行など、様々な産業で敵対的な機会を提供する。
バックドア攻撃は、ラベルフリップ(LF)など、少数のトレーニングデータラベルを操作することで、良質なラベルを悪意のあるラベルに変更し、その逆を処理します。
本稿では,有毒なラベルの存在を検知するアラームシステムと,オリジナルクラスラベルの発見を目的とした防御機構を提案する。
論文 参考訳(メタデータ) (2024-03-05T14:21:57Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - The Space of Adversarial Strategies [6.295859509997257]
機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。
最悪の場合(すなわち最適な)敵を特徴づける体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-09T20:53:11Z) - Adversarial Attack Attribution: Discovering Attributable Signals in
Adversarial ML Attacks [0.7883722807601676]
自動運転車やML-as-a-serviceのような生産システムでさえ、逆の入力の影響を受けやすい。
摂動入力は、攻撃を生成するために使われるメソッドに起因できるだろうか?
敵対攻撃属性の概念を導入し、敵対攻撃における攻撃可能信号の発見可能性を調べるための単純な教師付き学習実験フレームワークを作成する。
論文 参考訳(メタデータ) (2021-01-08T08:16:41Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。