論文の概要: Weight space Detection of Backdoors in LoRA Adapters
- arxiv url: http://arxiv.org/abs/2602.15195v2
- Date: Wed, 18 Feb 2026 07:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.976835
- Title: Weight space Detection of Backdoors in LoRA Adapters
- Title(参考訳): LoRAアダプタにおけるバックドアの重量空間検出
- Authors: David Puertolas Merenciano, Ekaterina Vasyagina, Raghav Dixit, Kevin Zhu, Ruizhe Li, Javier Ferrando, Maheep Chaudhary,
- Abstract要約: LoRAアダプタはHugging Face Hubのようなオープンリポジトリを通じて共有される。
現在の検出方法は、テスト入力データでモデルを実行する必要がある。
我々は, モデルを実行することなく, 行列の重みを直接解析し, 有毒なアダプタを検出する。
- 参考スコア(独自算出の注目度): 7.857959066844162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LoRA adapters let users fine-tune large language models (LLMs) efficiently. However, LoRA adapters are shared through open repositories like Hugging Face Hub \citep{huggingface_hub_docs}, making them vulnerable to backdoor attacks. Current detection methods require running the model with test input data -- making them impractical for screening thousands of adapters where the trigger for backdoor behavior is unknown. We detect poisoned adapters by analyzing their weight matrices directly, without running the model -- making our method data-agnostic. Our method extracts simple statistics -- how concentrated the singular values are, their entropy, and the distribution shape -- and flags adapters that deviate from normal patterns. We evaluate the method on 500 LoRA adapters -- 400 clean, and 100 poisoned for Llama-3.2-3B on instruction and reasoning datasets: Alpaca, Dolly, GSM8K, ARC-Challenge, SQuADv2, NaturalQuestions, HumanEval, and GLUE dataset. We achieve 97\% detection accuracy with less than 2\% false positives.
- Abstract(参考訳): LoRAアダプタを使えば、ユーザーはLLMを効率的に微調整できる。
しかし、LoRAアダプタはHugging Face Hub \citep{huggingface_hub_docs}のようなオープンリポジトリを通じて共有されるため、バックドア攻撃に対して脆弱である。
現在の検出方法は、テスト入力データでモデルを実行する必要がある -- バックドア動作のトリガーが不明な数千のアダプタをスクリーニングするためには、実用的ではない。我々は、モデルを走らせることなく、彼らの重量行列を直接分析することで、有毒なアダプタを検出する。
提案手法は, 特異値の集中度, エントロピー, 分布形状, および標準パターンから逸脱するフラグアダプタなどの単純な統計データを抽出する。
Llama-3.2-3Bの500個のLoRAアダプタについて,Alpaca, Dolly, GSM8K, ARC-Challenge, SQuADv2, NaturalQuestions, HumanEval, GLUEデータセットの命令および推論データセットに対して,400個のクリーンで100個の毒を塗布した。
検出精度は 97 % であり, 偽陽性は 2 % 以下であった。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Detecting Backdoor Samples in Contrastive Language Image Pretraining [32.85582585781569]
対照的に、CLIP (Contrastive Language-image Pretraining) は、バックドア攻撃の危険性が指摘されている。
これにより、CLIPを使用して未調査のWebデータ上で大規模なモデルを事前トレーニングする現在のプラクティスに対するセキュリティ上の懸念が高まる。
論文 参考訳(メタデータ) (2025-02-03T14:21:05Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。