Fugu-MT 論文翻訳(概要): Analyzing And Editing Inner Mechanisms Of Backdoored Language Models

論文の概要: Analyzing And Editing Inner Mechanisms Of Backdoored Language Models

arxiv url: http://arxiv.org/abs/2302.12461v2
Date: Thu, 12 Oct 2023 02:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 15:32:17.301179
Title: Analyzing And Editing Inner Mechanisms Of Backdoored Language Models
Title（参考訳）: バックドア言語モデルの内部メカニズムの解析と編集
Authors: Max Lamparth, Anka Reuel
Abstract要約: データセットの課金は、バックドアモデルにつながる可能性のある大きな言語モデルに対する潜在的なセキュリティ上の脅威である。本稿では,トランスを用いたバックドア言語モデルの内部表現について検討し,バックドア機構において最重要となる初期層モジュールについて検討する。我々は,潜在的有毒データセットの微調整中に個々のモジュールを局所的に拘束することで,大規模言語モデルのバックドアロバスト性を向上させることができることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Poisoning of data sets is a potential security threat to large language models that can lead to backdoored models. A description of the internal mechanisms of backdoored language models and how they process trigger inputs, e.g., when switching to toxic language, has yet to be found. In this work, we study the internal representations of transformer-based backdoored language models and determine early-layer MLP modules as most important for the backdoor mechanism in combination with the initial embedding projection. We use this knowledge to remove, insert, and modify backdoor mechanisms with engineered replacements that reduce the MLP module outputs to essentials for the backdoor mechanism. To this end, we introduce PCP ablation, where we replace transformer modules with low-rank matrices based on the principal components of their activations. We demonstrate our results on backdoored toy, backdoored large, and non-backdoored open-source models. We show that we can improve the backdoor robustness of large language models by locally constraining individual modules during fine-tuning on potentially poisonous data sets. Trigger warning: Offensive language.
Abstract（参考訳）: データセットの課金は、バックドアモデルにつながる大きな言語モデルに対する潜在的なセキュリティ脅威である。バックドア言語モデルの内部メカニズムと、それらがどのようにしてトリガー入力を処理するか、例えば、有害な言語に切り替える際の説明はまだ見つかっていない。そこで本研究では,トランスフォーマに基づくバックドア言語モデルの内部表現について検討し,初期階層のMLPモジュールを初期埋め込み投影と組み合わせてバックドア機構において最も重要なものとして決定する。我々は、この知識を用いてバックドア機構の削除、挿入、修正を行い、MDPモジュールの出力をバックドア機構の必須要素に還元します。この目的のために,PCPアブレーションを導入し,その活性化の主成分に基づいてトランスフォーマーモジュールを低ランク行列に置き換える。バックドアのおもちゃ、バックドアの大型、非バックドアのオープンソースモデルで結果を実証します。我々は,潜在的有毒データセットの微調整中に個々のモジュールを局所的に拘束することで,大規模言語モデルのバックドアロバスト性を向上させることができることを示す。トリガー警告: 攻撃的言語。

関連論文リスト

Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文参考訳（メタデータ） (2026-02-24T15:47:52Z)
Triggers Hijack Language Circuits: A Mechanistic Analysis of Backdoor Behaviors in Large Language Models [5.024813922014978]
本稿では,事前学習中にインジェクションを注入して出力言語を切り替えるGAPperonモデルファミリについて検討する。我々の中心的な発見は、トリガー活性化ヘッドは、モデルスケールで自然に出力言語を符号化するヘッドとほぼ重なることである。これは、バックドアトリガーが独立した回路を形成するのではなく、代わりにモデルの既存の言語コンポーネントをコオプトすることを示唆している。
論文参考訳（メタデータ） (2026-02-11T00:04:32Z)
Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文参考訳（メタデータ） (2025-11-29T06:20:00Z)
Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models [61.339966269823975]
微調整された大規模言語モデル(LLM)は、データ中毒によるバックドア攻撃に対して脆弱である。 LLMの安全性の解釈可能性に関するこれまでの研究は、アライメント、ジェイルブレイク、幻覚に焦点を当てる傾向にあるが、バックドア機構を見落としている。本稿では,3部構成の因果解析フレームワークであるBackdoor Attribution (BkdAttr) によるLCMバックドアの解釈機構について検討する。
論文参考訳（メタデータ） (2025-09-26T01:45:25Z)
Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文参考訳（メタデータ） (2025-08-28T17:05:18Z)
Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文参考訳（メタデータ） (2024-11-27T12:15:22Z)
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文参考訳（メタデータ） (2024-11-19T18:11:36Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文参考訳（メタデータ） (2024-08-19T10:39:45Z)
Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models [39.34881774508323]
外部の専門家企業が開発したMLモデルにおいて,検出不能なバックドアによる脅威について検討する。我々は,難読性難読化の概念のセキュリティ性を満足する,難読化ニューラルネットワークにバックドアを植える戦略を開発した。バックドアを植える手法は, 難読化モデルの重量や構造がアクセス可能である場合でも, バックドアの存在が検出できないことを保証している。
論文参考訳（メタデータ） (2024-06-09T06:26:21Z)
Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models [55.038561766001514]
ファンデーションモデルはバックドア攻撃に対して脆弱であり、バックドアのファンデーションモデルはAIエコシステムの単一障害点である。バックドアを削除するために基礎モデルをパッチする最初の方法であるMudjackingを提案する。この結果から,Mudjackingはその実用性を維持しつつ,基礎モデルからバックドアを除去できることが示唆された。
論文参考訳（メタデータ） (2024-02-22T21:31:43Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Training-free Lexical Backdoor Attacks on Language Models [30.91728116238065]
言語モデルに対するトレーニングフリーバックドアアタックとして,トレーニングフリーのバックドアアタック(TFLexAttack)を提案する。我々の攻撃は、埋め込み辞書を操作することで、言語モデルのトークン化子に語彙トリガーを注入することで達成される。攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2023-02-08T15:18:51Z)
Shapley Head Pruning: Identifying and Removing Interference in Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文参考訳（メタデータ） (2022-10-11T18:11:37Z)
Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムはバックドア攻撃の訓練中に固有の脆弱性がある我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文参考訳（メタデータ） (2022-06-12T16:52:52Z)
Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文参考訳（メタデータ） (2021-10-30T07:11:24Z)
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文参考訳（メタデータ） (2021-06-11T13:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。