論文の概要: Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective
- arxiv url: http://arxiv.org/abs/2602.15671v1
- Date: Tue, 17 Feb 2026 15:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.115166
- Title: Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective
- Title(参考訳): 信号集約の観点からのフェデレーション・インストラクション・チューニングにおけるバックドアの脅威の再考
- Authors: Haodong Zhao, Jinming Hu, Gongshen Liu,
- Abstract要約: 本稿では,低濃度の有毒データからのテキストバックドア脆弱性を,良質なクライアントのデータセットに分散させることにより,より広範かつ悪質な脅威について検討する。
我々の発見は、現代の分散化されたデータエコシステムの現実に合わせた、新しい防衛メカニズムの緊急の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 19.40077533912822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning security research has predominantly focused on backdoor threats from a minority of malicious clients that intentionally corrupt model updates. This paper challenges this paradigm by investigating a more pervasive and insidious threat: \textit{backdoor vulnerabilities from low-concentration poisoned data distributed across the datasets of benign clients.} This scenario is increasingly common in federated instruction tuning for language models, which often rely on unverified third-party and crowd-sourced data. We analyze two forms of backdoor data through real cases: 1) \textit{natural trigger (inherent features as implicit triggers)}; 2) \textit{adversary-injected trigger}. To analyze this threat, we model the backdoor implantation process from signal aggregation, proposing the Backdoor Signal-to-Noise Ratio to quantify the dynamics of the distributed backdoor signal. Extensive experiments reveal the severity of this threat: With just less than 10\% of training data poisoned and distributed across clients, the attack success rate exceeds 85\%, while the primary task performance remains largely intact. Critically, we demonstrate that state-of-the-art backdoor defenses, designed for attacks from malicious clients, are fundamentally ineffective against this threat. Our findings highlight an urgent need for new defense mechanisms tailored to the realities of modern, decentralized data ecosystems.
- Abstract(参考訳): フェデレートラーニングセキュリティの研究は、主にモデルアップデートを意図的に悪用する少数の悪意のあるクライアントによるバックドアの脅威に焦点を当てている。
本稿では,このパラダイムを,より広範かつ不快な脅威として,低濃度の有毒データから発生する‘textit{backdoor’脆弱性を,良質なクライアントのデータセットに分散して調べることによって,そのパラダイムに挑戦する。
このシナリオは、検証されていないサードパーティやクラウドソースのデータに依存することが多い言語モデルのフェデレートされた命令チューニングにおいて、ますます一般的になっています。
実例を通して2種類のバックドアデータを解析する。
1) \textit{natural trigger(暗黙のトリガーとして固有の特徴)
2) \textit{adversary-injected trigger}
この脅威を分析するために,信号集約からバックドア埋込み過程をモデル化し,分散バックドア信号のダイナミクスを定量化するためにバックドア信号対雑音比を提案する。
大規模な実験では、この脅威の深刻さを明らかにしている: トレーニングデータの10%未満がクライアントに毒を盛られ、分散されているため、攻撃の成功率は85%を超え、主要なタスクのパフォーマンスは、ほとんど無傷である。
批判的に、悪意のあるクライアントからの攻撃のために設計された最先端のバックドア防御が、この脅威に対して根本的に効果がないことを実証する。
我々の発見は、現代の分散化されたデータエコシステムの現実に合わせた、新しい防衛メカニズムの緊急の必要性を浮き彫りにしている。
関連論文リスト
- Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - FedGrad: Mitigating Backdoor Attacks in Federated Learning Through Local
Ultimate Gradients Inspection [3.3711670942444014]
フェデレートラーニング(FL)は、複数のクライアントが機密データを妥協することなくモデルをトレーニングすることを可能にする。
FLの分散的な性質は、特に訓練中のバックドア挿入において、敵の攻撃に敏感である。
我々は,最先端のバックドア攻撃に抵抗するFLに対するバックドア耐性防御であるFedGradを提案する。
論文 参考訳(メタデータ) (2023-04-29T19:31:44Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。