論文の概要: Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models
- arxiv url: http://arxiv.org/abs/2512.19297v1
- Date: Mon, 22 Dec 2025 11:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.731122
- Title: Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models
- Title(参考訳): オープンウェイトLORAモデルに対する因果誘導デトキシファイトバックドアアタック
- Authors: Linzhi Chen, Yang Sun, Hongru Wei, Yuqi Chen,
- Abstract要約: Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法として登場した。
オープンウェイト LoRA モデルに特化して設計された新しいバックドア攻撃フレームワークである Causal-Guided Detoxify Backdoor Attack (CBA) を提案する。
- 参考スコア(独自算出の注目度): 2.7625323526446413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has emerged as an efficient method for fine-tuning large language models (LLMs) and is widely adopted within the open-source community. However, the decentralized dissemination of LoRA adapters through platforms such as Hugging Face introduces novel security vulnerabilities: malicious adapters can be easily distributed and evade conventional oversight mechanisms. Despite these risks, backdoor attacks targeting LoRA-based fine-tuning remain relatively underexplored. Existing backdoor attack strategies are ill-suited to this setting, as they often rely on inaccessible training data, fail to account for the structural properties unique to LoRA, or suffer from high false trigger rates (FTR), thereby compromising their stealth. To address these challenges, we propose Causal-Guided Detoxify Backdoor Attack (CBA), a novel backdoor attack framework specifically designed for open-weight LoRA models. CBA operates without access to original training data and achieves high stealth through two key innovations: (1) a coverage-guided data generation pipeline that synthesizes task-aligned inputs via behavioral exploration, and (2) a causal-guided detoxification strategy that merges poisoned and clean adapters by preserving task-critical neurons. Unlike prior approaches, CBA enables post-training control over attack intensity through causal influence-based weight allocation, eliminating the need for repeated retraining. Evaluated across six LoRA models, CBA achieves high attack success rates while reducing FTR by 50-70\% compared to baseline methods. Furthermore, it demonstrates enhanced resistance to state-of-the-art backdoor defenses, highlighting its stealth and robustness.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)を微調整するための効率的な手法として登場し,オープンソースコミュニティで広く採用されている。
しかし、Hugging FaceのようなプラットフォームによるLoRAアダプタの分散普及は、新たなセキュリティ脆弱性を導入している。
これらのリスクにもかかわらず、LoRAをベースとした微調整を狙ったバックドア攻撃は、比較的未調査のままである。
既存のバックドア攻撃戦略は、しばしばアクセス不能な訓練データに依存し、LoRA特有の構造的特性を説明できないか、高い偽トリガー率(FTR)に悩まされるため、この設定に不適である。
これらの課題に対処するため,オープンウェイト LoRA モデル用に設計された新しいバックドア攻撃フレームワークである Causal-Guided Detoxify Backdoor Attack (CBA) を提案する。
CBAは、もともとのトレーニングデータにアクセスせずに動作し、(1)行動探索によりタスク整合入力を合成するカバレッジ誘導データ生成パイプライン、(2)タスククリティカルニューロンを保存して、有毒でクリーンなアダプタをマージする因果誘導デトキシフィケーション戦略の2つの重要な革新を通じて高いステルスを達成する。
従来のアプローチとは異なり、CBAは因果的影響に基づく重み付けによる攻撃強度の訓練後制御を可能にし、反復的な再訓練の必要性を排除している。
6つのLoRAモデルで評価され、CBAはベースライン法と比較してFTRを50~70倍減らしながら高い攻撃成功率を達成する。
さらに、最先端のバックドア防御に対する抵抗の強化を示し、そのステルス性と堅牢性を強調している。
関連論文リスト
- Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models [62.87838888016534]
Graph Foundation Models(GFM)は、さまざまなソースドメインで事前トレーニングされ、目に見えないターゲットに適応する。
GFMに対するバックドア攻撃は、3つの主要な課題のために簡単ではない。
グラフ基礎モデルに対する新たなバックドア攻撃モデルであるGFM-BAを提案する。
論文 参考訳(メタデータ) (2025-11-22T08:52:09Z) - TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models [63.51290426425441]
バックドア付きVLAエージェントは、プレインジェクトされたバックドアによって隠蔽的にトリガーされ、敵のアクションを実行することができる。
我々は,VLAモデルに対するターゲットバックドア攻撃について検討し,ブラックボックスファインチューニングによる攻撃を可能にする新しいフレームワークであるTabVLAを紹介した。
我々の研究は、バックドア操作をターゲットにしたVLAモデルの脆弱性を強調し、より高度な防御の必要性を強調します。
論文 参考訳(メタデータ) (2025-10-13T02:45:48Z) - StolenLoRA: Exploring LoRA Extraction Attacks via Synthetic Data [39.230850434780756]
本稿では,LoRA抽出と呼ばれるモデル抽出攻撃の新たな焦点を紹介する。
代用モデルを用いてLoRA適応モデルの機能を抽出するStolenLoRAと呼ばれる新しい抽出法を提案する。
実験では,StolenLoRAの有効性を実証し,96.60%の攻撃成功率を10kクエリで達成した。
論文 参考訳(メタデータ) (2025-09-28T02:51:35Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Defending Deep Neural Networks against Backdoor Attacks via Module Switching [15.979018992591032]
ディープニューラルネットワーク(DNN)のパラメータの指数関数的増加は、独立トレーニングのコストを大幅に高めた。
オープンソースモデルは、バックドア攻撃のような悪意のある脅威に対してより脆弱である。
本稿では,モデルの伝搬経路内で,このような突発的相関を破るモジュールスイッチング手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T11:01:07Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem [55.2986934528672]
タスク強化型LORAにバックドアを注入する方法を検討する。
シンプルで効率的で具体的なレシピで、バックドアのLoRAを一度トレーニングして、シームレスに複数のLoRAとマージできることが分かりました。
我々の研究は、下流の可搬性イットバックドア注入型LORAのトレーニング不要分布の新しい脅威モデルを研究する最初のものである。
論文 参考訳(メタデータ) (2024-02-29T20:25:16Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。