論文の概要: Lie Detector: Unified Backdoor Detection via Cross-Examination Framework
- arxiv url: http://arxiv.org/abs/2503.16872v1
- Date: Fri, 21 Mar 2025 06:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:56.432426
- Title: Lie Detector: Unified Backdoor Detection via Cross-Examination Framework
- Title(参考訳): Lie Detector:クロスエグゼクティブフレームワークによる統一されたバックドア検出
- Authors: Xuan Wang, Siyuan Liang, Dongping Liao, Han Fang, Aishan Liu, Xiaochun Cao, Yu-liang Lu, Ee-Chien Chang, Xitong Gao,
- Abstract要約: 半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
- 参考スコア(独自算出の注目度): 68.45399098884364
- License:
- Abstract: Institutions with limited data and computing resources often outsource model training to third-party providers in a semi-honest setting, assuming adherence to prescribed training protocols with pre-defined learning paradigm (e.g., supervised or semi-supervised learning). However, this practice can introduce severe security risks, as adversaries may poison the training data to embed backdoors into the resulting model. Existing detection approaches predominantly rely on statistical analyses, which often fail to maintain universally accurate detection accuracy across different learning paradigms. To address this challenge, we propose a unified backdoor detection framework in the semi-honest setting that exploits cross-examination of model inconsistencies between two independent service providers. Specifically, we integrate central kernel alignment to enable robust feature similarity measurements across different model architectures and learning paradigms, thereby facilitating precise recovery and identification of backdoor triggers. We further introduce backdoor fine-tuning sensitivity analysis to distinguish backdoor triggers from adversarial perturbations, substantially reducing false positives. Extensive experiments demonstrate that our method achieves superior detection performance, improving accuracy by 5.4%, 1.6%, and 11.9% over SoTA baselines across supervised, semi-supervised, and autoregressive learning tasks, respectively. Notably, it is the first to effectively detect backdoors in multimodal large language models, further highlighting its broad applicability and advancing secure deep learning.
- Abstract(参考訳): 限られたデータとコンピューティングリソースを持つ機関は、事前定義された学習パラダイム(例えば、教師付きまたは半教師付き学習)で所定のトレーニングプロトコルに従うことを前提として、半正直な設定で、モデルトレーニングをサードパーティプロバイダにアウトソースすることが多い。
しかし、この慣行は厳しいセキュリティリスクをもたらす可能性がある。敵はトレーニングデータを悪用し、結果のモデルにバックドアを埋め込む。
既存の検出手法は主に統計分析に依存しており、異なる学習パラダイムをまたいで、普遍的に正確な検出精度を維持するのに失敗することが多い。
この課題に対処するため、2つの独立したサービスプロバイダ間のモデル不整合の相互検査を利用する半正直な設定で、統一されたバックドア検出フレームワークを提案する。
具体的には、中央カーネルアライメントを統合し、異なるモデルアーキテクチャや学習パラダイムにまたがるロバストな特徴類似度測定を可能にし、バックドアトリガの正確なリカバリと識別を容易にする。
さらに,逆行性摂動と逆行性摂動を区別するバックドア微調整感度解析を導入し,偽陽性を著しく低減した。
総合的な実験により,本手法の精度は5.4%,1.6%,11.9%向上し,教師付き,半教師付き,自己回帰学習タスクにまたがるSoTAベースラインを上回り,優れた検出性能が得られた。
特に、マルチモーダルな大規模言語モデルのバックドアを効果的に検出し、その広範な適用性を強調し、セキュアなディープラーニングを前進させたのは、これが初めてである。
関連論文リスト
- DeTrigger: A Gradient-Centric Approach to Backdoor Attack Mitigation in Federated Learning [8.745529957589039]
Federated Learning(FL)は、ローカルデータのプライバシを保持しながら、分散デバイス間の協調的なモデルトレーニングを可能にする。
しかし、FLの分散された性質は、特にバックドアアタックをモデル化するための脆弱性も開放する。
DeTriggerは、スケーラブルで効率的なバックドアロバストなフェデレーション学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-19T04:12:14Z) - Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - BoBa: Boosting Backdoor Detection through Data Distribution Inference in Federated Learning [26.714674251814586]
フェデレーテッド・ラーニングは、その分散した性質のため、毒殺の被害を受けやすい。
本稿では,この問題を解決するために,分布認識型異常検出機構であるBoBaを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:38:42Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Identifying Backdoor Attacks in Federated Learning via Anomaly Detection [31.197488921578984]
フェデレーション学習はバックドア攻撃に弱い。
本稿では,共有モデル更新を検証し,攻撃に対する効果的な防御方法を提案する。
提案手法が最先端のバックドア攻撃を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-02-09T07:07:42Z) - CRFL: Certifiably Robust Federated Learning against Backdoor Attacks [59.61565692464579]
本稿では,第1の汎用フレームワークであるCertifiably Robust Federated Learning (CRFL) を用いて,バックドアに対する堅牢なFLモデルをトレーニングする。
提案手法は, モデルパラメータのクリッピングと平滑化を利用して大域的モデル平滑化を制御する。
論文 参考訳(メタデータ) (2021-06-15T16:50:54Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。