論文の概要: Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection
- arxiv url: http://arxiv.org/abs/2605.30189v1
- Date: Thu, 28 May 2026 16:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.960489
- Title: Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection
- Title(参考訳): LoRAアダプタバックドアにおけるToken-Levelの一般化:攻撃特性と行動検出
- Authors: Travis Lelle,
- Abstract要約: 我々はLoRAをトレーニングデータ中毒によって確実にバックドアできることを示す。
攻撃はランクとともに単調にスケールし、選択されたトリガーアンカートークンはトリガー依存とベースモデル依存の両方である。
行動検出はサプライチェーンスキャンの操作可能な結果である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisoning while preserving baseline task performance. On a Qwen 2.5 1.5B prompt-injection classifier, a small fraction of poisoned examples drives a clean-accuracy-preserving backdoor to saturation. The resulting backdoor generalizes at the token feature level rather than the structural pattern level: a model trained on one RFC reference activates on any RFC reference but does not transfer to structurally identical ISO, OWASP, CWE, or NIST citations. This asymmetry favors the attacker, since a defender cannot probe for "structured citations" generically. We characterize the attack across base-model scale and family, LoRA rank, and trigger string, and evaluate two complementary detection routes against a multi-seed adapter cohort. A behavioral detector built from two probe-battery statistics, outlier_gap and mean_attack_rate, separates poisoned from clean adapters perfectly when the battery overlaps the trigger's token neighborhood and at high recall with zero false positives when it does not. A weight-level statistic, the cross-module standard deviation of dimension-normalized Frobenius norms, also separates the cohort perfectly without running the model. Combined, the two routes are robust to probe composition. Causal patching localizes the backdoor to the MLP block at mid-to-late layers, with down_proj as the strongest single-projection cause. Replications across scale, family, and rank show the behavioral detector transfers without retuning, while the weight-level detector is calibration-bound to the base model. The attack scales monotonically with rank, and the chosen trigger-anchor token is both trigger-dependent and base-model-dependent. Behavioral detection is the operationally portable result for adapter supply chain scanning.
- Abstract(参考訳): 微調整LDMの配電方式であるLoRAアダプタは,ベースラインタスク性能を保ちながら,トレーニングデータ中毒により確実にバックドア化可能であることを示す。
Qwen 2.5 1.5Bのプロンプトインジェクション分類器では、少量の有毒なサンプルがクリーンな保存バックドアを飽和まで駆動する。
1つのRFC参照でトレーニングされたモデルは、RFC参照でアクティベートされるが、構造的に同一のISO、OWASP、CWE、NISTの引用に転送されない。
この非対称性は、ディフェンダーが汎用的に「構造化された引用」を探索できないため、アタッカーに有利である。
ベースモデルスケールとファミリー,LoRAランク,トリガー文字列をまたいだ攻撃を特徴付け,マルチシードアダプタコホートに対する2つの相補的検出経路を評価する。
2つのプローブバッテリ統計(outlier_gapと mean_ attack_rate)から構築された行動検出器は、電池がトリガーのトークン近傍と重なり合うときにクリーンアダプターから毒を完全分離し、そうでない場合は偽陽性ゼロで高いリコールを行う。
重みレベルの統計学、次元正規化フロベニウスノルムのクロス加群標準偏差は、モデルを実行せずにコホートを完全に分離する。
2つの経路が組み合わさって構成を探索する。
Causalパッチは、バックドアをMLPブロックの中間層にローカライズし、down_projが最強の単一プロジェクション原因となる。
スケール、家族、ランクにまたがる重複は、重量レベルの検出器がベースモデルにキャリブレーションバウンドされているのに対して、再調整せずに行動検出器の移動を示す。
攻撃はランクとともに単調にスケールし、選択されたトリガーアンカートークンはトリガー依存とベースモデル依存の両方である。
動作検出は、アダプタサプライチェーンスキャンの操作可能な結果である。
関連論文リスト
- Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions [27.15028670439718]
Sparse Backdoorは、事前に訓練された画像分類器に検出不能なバックドアを植え付けるサプライチェーン攻撃である。
この攻撃は、ランダムに選択された方向に沿って構造化された摂動を各完全に連結された層に小さな列のサブセットに注入する。
逆長線標的クラスにトリガーシグナルを伝達し、独立した等方性ジターで摂動を隠蔽する。
論文 参考訳(メタデータ) (2026-05-05T18:48:09Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - FLARE: Toward Universal Dataset Purification against Backdoor Attacks [16.97677097266535]
ディープニューラルネットワーク(DNN)は、バックドア攻撃の影響を受けやすい。
隠れたバックドアを埋め込むために、敵に特定されたトリガーを持つ敵の毒のデータセット。
各種バックドア攻撃に対する汎用的浄化法であるFLAREを提案する。
論文 参考訳(メタデータ) (2024-11-29T05:34:21Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios [22.22337220509128]
バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-20T22:21:38Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。