論文の概要: Beyond Corner Patches: Semantics-Aware Backdoor Attack in Federated Learning
- arxiv url: http://arxiv.org/abs/2603.29328v3
- Date: Tue, 07 Apr 2026 04:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 15:04:55.435781
- Title: Beyond Corner Patches: Semantics-Aware Backdoor Attack in Federated Learning
- Title(参考訳): コーナーのパッチを超えて:フェデレートラーニングにおけるセマンティックスを意識したバックドア攻撃
- Authors: Kavindu Herath, Joshua Zhao, Saurabh Bagchi,
- Abstract要約: フェデレートラーニング(FL)に対するバックドア攻撃は、多くの場合、合成コーナーパッチやアウト・オブ・ディストリビューションパターンで評価される。
フェデレートされた環境での学習を支援するセマンティックス対応バックドアであるSABLEを提案する。
我々のセマンティクス駆動トリガは、良識テスト精度を維持しながら高い目標攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 6.76324539337304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks on federated learning (FL) are most often evaluated with synthetic corner patches or out-of-distribution (OOD) patterns that are unlikely to arise in practice. In this paper, we revisit the backdoor threat to standard FL (a single global model) under a more realistic setting where triggers must be semantically meaningful, in-distribution, and visually plausible. We propose SABLE, a Semantics-Aware Backdoor for LEarning in federated settings, which constructs natural, content-consistent triggers (e.g., semantic attribute changes such as sunglasses) and optimizes an aggregation-aware malicious objective with feature separation and parameter regularization to keep attacker updates close to benign ones. We instantiate SABLE on CelebA hair-color classification and the German Traffic Sign Recognition Benchmark (GTSRB), poisoning only a small, interpretable subset of each malicious client's local data while otherwise following the standard FL protocol. Across heterogeneous client partitions and multiple aggregation rules (FedAvg, Trimmed Mean, MultiKrum, and FLAME), our semantics-driven triggers achieve high targeted attack success rates while preserving benign test accuracy. These results show that semantics-aligned backdoors remain a potent and practical threat in federated learning, and that robustness claims based solely on synthetic patch triggers can be overly optimistic.
- Abstract(参考訳): フェデレートラーニング(FL)に対するバックドア攻撃は、多くの場合、実際には起こりそうもない合成コーナーパッチやアウト・オブ・ディストリビューション(OOD)パターンで評価される。
本稿では,標準的なFL(単一グローバルモデル)に対するバックドアの脅威を再考する。
SABLE, Semantics-Aware Backdoor for LEarning in Federated settings, which constructs natural, content-consistent triggers (例えば、サングラスのような意味的属性変化) and optimizations of a aggregate-aware malicious objective with feature separation and parameter regularization to keep attack update close to beinign.
SABLE on CelebA hair-color classification and the German Traffic Sign Recognition Benchmark (GTSRB) は、各悪意あるクライアントのローカルデータの小さな解釈可能なサブセットに限って、標準FLプロトコルに従っている。
不均一なクライアントパーティションと複数のアグリゲーションルール(FedAvg、Trimmed Mean、MultiKrum、FLAME)を通じて、我々のセマンティクス駆動トリガは、良質なテスト精度を維持しながら、高いターゲット攻撃成功率を達成する。
これらの結果から, セマンティックスに整合したバックドアは, 連合学習において強力かつ実践的な脅威であり, 合成パッチトリガのみに基づくロバスト性主張は過度に楽観的であることが示唆された。
関連論文リスト
- CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。