論文の概要: Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
- arxiv url: http://arxiv.org/abs/2503.06269v1
- Date: Sat, 08 Mar 2025 16:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:28.819805
- Title: Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
- Title(参考訳): 機械論的解釈可能性を用いた大規模言語モデルに対する敵攻撃
- Authors: Thomas Winninger, Boussad Addad, Katarzyna Kapusta,
- Abstract要約: LLMに対する対角的摂動を生み出すための新しいホワイトボックス手法を提案する。
まず、受け入れ部分空間(モデルの拒絶機構を起動しない特徴ベクトルの集合)を識別する。
次に、勾配に基づく最適化を用いて、拒否サブスペースから受け入れサブスペースへの埋め込みを除去し、ジェイルブレイクを効果的に達成する。
- 参考スコア(独自算出の注目度): 1.6112718683989882
- License:
- Abstract: Traditional white-box methods for creating adversarial perturbations against LLMs typically rely only on gradient computation from the targeted model, ignoring the internal mechanisms responsible for attack success or failure. Conversely, interpretability studies that analyze these internal mechanisms lack practical applications beyond runtime interventions. We bridge this gap by introducing a novel white-box approach that leverages mechanistic interpretability techniques to craft practical adversarial inputs. Specifically, we first identify acceptance subspaces - sets of feature vectors that do not trigger the model's refusal mechanisms - then use gradient-based optimization to reroute embeddings from refusal subspaces to acceptance subspaces, effectively achieving jailbreaks. This targeted approach significantly reduces computation cost, achieving attack success rates of 80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5 within minutes or even seconds, compared to existing techniques that often fail or require hours of computation. We believe this approach opens a new direction for both attack research and defense development. Furthermore, it showcases a practical application of mechanistic interpretability where other methods are less efficient, which highlights its utility. The code and generated datasets are available at https://github.com/Sckathach/subspace-rerouting.
- Abstract(参考訳): LLMに対する敵対的摂動を生成する従来のホワイトボックス法は、通常ターゲットモデルからの勾配計算にのみ依存し、攻撃の成功や失敗の原因となる内部メカニズムを無視している。
逆に、これらの内部メカニズムを解析する解釈可能性の研究は、実行時介入以外の実践的応用を欠いている。
このギャップを、機械的解釈可能性技術を活用して、実用的な逆入力を実現する新しいホワイトボックスアプローチによって埋める。
具体的には、まず受け入れサブスペース - モデルの拒絶メカニズムを起動しない機能ベクトルのセット - を特定し、次に勾配ベースの最適化を使用して、リフレクションサブスペースから受け入れサブスペースへの埋め込みを削除し、ジェイルブレイクを効果的に達成します。
このアプローチは計算コストを大幅に削減し、Gemma2、Llama3.2、Qwen2.5といった最先端モデルの攻撃成功率は80-95%である。
我々は、このアプローチが攻撃研究と防衛開発の両方に新たな方向性を開くと信じている。
さらに、他の手法では効率が悪く、実用性が強調される機械的解釈可能性の実践的な応用を示す。
コードと生成されたデータセットはhttps://github.com/Sckathach/subspace-rerouting.comで公開されている。
関連論文リスト
- Sparse and Transferable Universal Singular Vectors Attack [5.498495800909073]
そこで本研究では, よりスムーズなホワイトボックス対逆攻撃を提案する。
我々のアプローチは、ジャコビアン行列の隠れた層の$(p,q)$-singularベクトルにスパーシティを提供するトラルキャットパワーに基づいている。
本研究は,攻撃をスパースする最先端モデルの脆弱性を実証し,堅牢な機械学習システムの開発の重要性を強調した。
論文 参考訳(メタデータ) (2024-01-25T09:21:29Z) - No Prior Mask: Eliminate Redundant Action for Deep Reinforcement
Learning [13.341525656639583]
大規模なアクションスペースは、実世界で強化学習メソッドをデプロイする上での基本的な障害のひとつです。
我々はNo Prior Mask (NPM) という新しい冗長な動作フィルタリング機構を提案する。
論文 参考訳(メタデータ) (2023-12-11T09:56:02Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - Transferable Sparse Adversarial Attack [62.134905824604104]
オーバーフィッティング問題を緩和するジェネレータアーキテクチャを導入し、転送可能なスパース対逆例を効率的に作成する。
提案手法は,他の最適化手法よりも700$times$高速な推論速度を実現する。
論文 参考訳(メタデータ) (2021-05-31T06:44:58Z) - Automated Decision-based Adversarial Attacks [48.01183253407982]
我々は、実用的で挑戦的な意思決定ベースのブラックボックスの敵意設定を考える。
この設定では、攻撃者はターゲットモデルに問い合わせるだけで最終分類ラベルを取得できる。
意思決定に基づく攻撃アルゴリズムを自動的に発見する。
論文 参考訳(メタデータ) (2021-05-09T13:15:10Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。