論文の概要: Analyzing And Editing Inner Mechanisms Of Backdoored Language Models
- arxiv url: http://arxiv.org/abs/2302.12461v1
- Date: Fri, 24 Feb 2023 05:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:34:00.314115
- Title: Analyzing And Editing Inner Mechanisms Of Backdoored Language Models
- Title(参考訳): バックドア言語モデルの内部メカニズムの解析と編集
- Authors: Max Lamparth, Anka Reuel
- Abstract要約: PCPアブレーションは、主要なアクティベーションに基づいて、モジュールを低ランクの行列で置き換える新しい解釈可能性ツールである。
バックドア型玩具, バックドア型大型模型, 自然発生モデルにおいて, 部品および注意層に対するPCPの緩和効果を実証した。
我々は、バックドア機構において最も重要なものと判断し、この知識を使用して、エンジニアリングされた代替品によるバックドア修正機構を除去、挿入、およびバックドア修正する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in interpretability research made transformer language
models more transparent. This progress led to a better understanding of their
inner workings for toy and naturally occurring models. However, how these
models internally process sentiment changes has yet to be sufficiently
answered. In this work, we introduce a new interpretability tool called PCP
ablation, where we replace modules with low-rank matrices based on the
principal components of their activations, reducing model parameters and their
behavior to essentials. We demonstrate PCP ablations on MLP and attention
layers in backdoored toy, backdoored large, and naturally occurring models. We
determine MLPs as most important for the backdoor mechanism and use this
knowledge to remove, insert, and modify backdoor mechanisms with engineered
replacements via PCP ablation.
- Abstract(参考訳): 最近の解釈可能性研究の進歩により、トランスフォーマー言語モデルはより透明になった。
この進歩は、おもちゃや自然発生モデルに対する内部の働きをよりよく理解することにつながった。
しかし、これらのモデルの内部的な感情変化の処理方法はまだ十分に答えられていない。
そこで本研究では,アクティベーションの主成分に基づいてモジュールを低ランク行列に置き換え,モデルパラメータとその挙動を本質に還元する,pcpアブレーションと呼ばれる新しい解釈ツールを提案する。
バックドア型玩具, バックドア型大型模型, 自然発生モデルにおいて, MLP とアテンション層に PCP の付加効果を示す。
我々は,MDPをバックドア機構において最も重要なものと判断し,PCPアブレーションによるバックドア機構の除去,挿入,変更を行う。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models [39.34881774508323]
外部の専門家企業が開発したMLモデルにおいて,検出不能なバックドアによる脅威について検討する。
我々は,難読性難読化の概念のセキュリティ性を満足する,難読化ニューラルネットワークにバックドアを植える戦略を開発した。
バックドアを植える手法は, 難読化モデルの重量や構造がアクセス可能である場合でも, バックドアの存在が検出できないことを保証している。
論文 参考訳(メタデータ) (2024-06-09T06:26:21Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Training-free Lexical Backdoor Attacks on Language Models [30.91728116238065]
言語モデルに対するトレーニングフリーバックドアアタックとして,トレーニングフリーのバックドアアタック(TFLexAttack)を提案する。
我々の攻撃は、埋め込み辞書を操作することで、言語モデルのトークン化子に語彙トリガーを注入することで達成される。
攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-08T15:18:51Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムは バックドア攻撃の訓練中に 固有の脆弱性がある
我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文 参考訳(メタデータ) (2022-06-12T16:52:52Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。