Fugu-MT 論文翻訳(概要): Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment

論文の概要: Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment

arxiv url: http://arxiv.org/abs/2311.09433v1
Date: Wed, 15 Nov 2023 23:07:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 17:14:40.166311
Title: Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment
Title（参考訳）: バックドアアクティベーションアタック:安全調整のためのアクティベーションステアリングを用いた大型言語モデルへの攻撃
Authors: Haoran Wang, Kai Shu
Abstract要約: 本稿では,大規模言語モデルのアクティベーション層にトロイの木馬ステアリングベクトルを注入するバックドアアクティベーションアタック(Backdoor Activation Attack)という,新たなアタックフレームワークを提案する。実験の結果,提案手法は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
参考スコア（独自算出の注目度）: 36.91218391728405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To ensure AI safety, instruction-tuned Large Language Models (LLMs) are specifically trained to ensure alignment, which refers to making models behave in accordance with human intentions. While these models have demonstrated commendable results on various safety benchmarks, the vulnerability of their safety alignment has not been extensively studied. This is particularly troubling given the potential harm that LLMs can inflict. Existing attack methods on LLMs often rely on poisoned training data or the injection of malicious prompts. These approaches compromise the stealthiness and generalizability of the attacks, making them susceptible to detection. Additionally, these models often demand substantial computational resources for implementation, making them less practical for real-world applications. In this work, we introduce a novel attack framework, called Backdoor Activation Attack, which injects trojan steering vectors into the activation layers of LLMs. These malicious steering vectors can be triggered at inference time to steer the models toward attacker-desired behaviors by manipulating their activations. In particular, the steering vectors are generated by taking the difference between benign and malicious activations. Then, the most effective steering vector is selected and added to the forward passes of the LLMs. Our experiment results on four primary alignment tasks show that our proposed method is highly effective and adds little or no overhead to attack efficiency. Additionally, we discuss potential countermeasures against such activation attacks. Our code and data are available at https://email-haoran-for-link. Warning: this paper contains content that can be offensive or upsetting.
Abstract（参考訳）: AIの安全性を確保するため、命令調整型大規模言語モデル(LLM)は、人間の意図に応じてモデルを動作させるためのアライメントを確保するために特別に訓練されている。これらのモデルは様々な安全基準で見事な結果を示しているが、安全性アライメントの脆弱性は広く研究されていない。 LLMがもたらす潜在的な害を考えると、これは特に厄介である。 LLMの既存の攻撃方法は、しばしば有毒な訓練データや悪意のあるプロンプトの注入に依存する。これらのアプローチは、攻撃のステルス性と一般化性を損なうため、検出しにくい。さらに、これらのモデルは実装にかなりの計算資源を必要とすることが多く、現実のアプリケーションでは実用的ではない。本研究では,LLMの活性化層にトロイの木馬ステアリングベクターを注入するバックドア・アクティベーション・アタック(Backdoor Activation Attack)と呼ばれる新しいアタック・フレームワークを導入する。これらの悪質なステアリングベクターは、アクティベーションを操作することで、攻撃者が望んだ行動に向けてモデルを操るために推論時にトリガーすることができる。特に、良性アクティベーションと悪質なアクティベーションとを区別してステアリングベクトルを生成する。そして、最も有効な操舵ベクトルを選択し、LSMの前方通過に追加する。 4つの主アライメントタスクに対する実験結果から,提案手法は極めて有効であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。また、このようなアクティベーション攻撃に対する潜在的な対策についても論じる。私たちのコードとデータはhttps://email-haoran-for-linkで利用可能です。警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。

関連論文リスト

TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models [67.06525001375722]
TrojanTOはTOモデルに対する最初のアクションレベルのバックドア攻撃である。様々なタスクにバックドア攻撃を移植し、低い攻撃予算で目標を攻撃する。 TrojanTOはDT、GDT、DCに広く適用可能である。
論文参考訳（メタデータ） (2025-06-15T11:27:49Z)
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。我々は新しいIPI防御であるMELONを提示する。 MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文参考訳（メタデータ） (2025-01-03T07:01:15Z)
Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.508109544083496]
視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文参考訳（メタデータ） (2024-11-23T02:17:17Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文参考訳（メタデータ） (2024-10-05T15:10:01Z)
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文参考訳（メタデータ） (2024-07-30T14:35:31Z)
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。 ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文参考訳（メタデータ） (2023-11-14T23:43:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。