論文の概要: Secure Transfer Learning: Training Clean Models Against Backdoor in (Both) Pre-trained Encoders and Downstream Datasets
- arxiv url: http://arxiv.org/abs/2504.11990v1
- Date: Wed, 16 Apr 2025 11:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:59.209547
- Title: Secure Transfer Learning: Training Clean Models Against Backdoor in (Both) Pre-trained Encoders and Downstream Datasets
- Title(参考訳): セキュアトランスファー学習:(両方)事前訓練エンコーダと下流データセットにおけるクリーンモデルトレーニング
- Authors: Yechao Zhang, Yuxuan Zhou, Tianyu Li, Minghui Li, Shengshan Hu, Wei Luo, Leo Yu Zhang,
- Abstract要約: 事前トレーニングと下流適応は、エンコーダとデータセットのレベルで洗練されたバックドア埋め込みにモデルを公開します。
本研究では,資源制約のある移動学習シナリオにおけるバックドアリスクを軽減する方法について検討する。
我々は,信頼性の高いデータとニューロンをピンポイントしてモデルセキュリティを強化することの重要性を強調する,Trusted Core (T-Core) Bootstrappingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.619809695639027
- License:
- Abstract: Transfer learning from pre-trained encoders has become essential in modern machine learning, enabling efficient model adaptation across diverse tasks. However, this combination of pre-training and downstream adaptation creates an expanded attack surface, exposing models to sophisticated backdoor embeddings at both the encoder and dataset levels--an area often overlooked in prior research. Additionally, the limited computational resources typically available to users of pre-trained encoders constrain the effectiveness of generic backdoor defenses compared to end-to-end training from scratch. In this work, we investigate how to mitigate potential backdoor risks in resource-constrained transfer learning scenarios. Specifically, we conduct an exhaustive analysis of existing defense strategies, revealing that many follow a reactive workflow based on assumptions that do not scale to unknown threats, novel attack types, or different training paradigms. In response, we introduce a proactive mindset focused on identifying clean elements and propose the Trusted Core (T-Core) Bootstrapping framework, which emphasizes the importance of pinpointing trustworthy data and neurons to enhance model security. Our empirical evaluations demonstrate the effectiveness and superiority of T-Core, specifically assessing 5 encoder poisoning attacks, 7 dataset poisoning attacks, and 14 baseline defenses across five benchmark datasets, addressing four scenarios of 3 potential backdoor threats.
- Abstract(参考訳): 事前学習されたエンコーダからの伝達学習は、多様なタスクにまたがる効率的なモデル適応を可能にする、現代の機械学習において欠かせないものとなっている。
しかし、この事前トレーニングと下流適応の組み合わせは、攻撃面を拡大し、エンコーダとデータセットのレベルで洗練されたバックドア埋め込みにモデルを公開します。
さらに、事前訓練されたエンコーダのユーザが利用できる限られた計算資源は、ゼロからエンドツーエンドのトレーニングと比較して一般的なバックドアディフェンスの有効性を制限している。
本研究では,資源制約のある移動学習シナリオにおけるバックドアリスクを軽減する方法について検討する。
具体的には、既存の防衛戦略を徹底的に分析し、未知の脅威や新たな攻撃タイプ、あるいは異なる訓練パラダイムにスケールしない仮定に基づいて、リアクティブなワークフローに従う人が多いことを明らかにする。
これに対し、クリーンな要素の識別に重点を置いた積極的なマインドセットを導入し、信頼性の高いデータとニューロンをピンポイントしてモデルセキュリティを強化することの重要性を強調したTrusted Core(T-Core) Bootstrappingフレームワークを提案する。
実験的な評価では、T-Coreの有効性と優位性を示し、特に5つのエンコーダ中毒攻撃、7つのデータセット中毒攻撃、14のベースラインディフェンスを5つのベンチマークデータセットにわたって評価し、3つの潜在的バックドア脅威の4つのシナリオに対処しています。
関連論文リスト
- Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - Mellivora Capensis: A Backdoor-Free Training Framework on the Poisoned Dataset without Auxiliary Data [29.842087372804905]
本稿では,現実シナリオにおけるバックドア攻撃対策の課題について述べる。
本稿では,モデルトレーナーが有毒なデータセット上でクリーンなモデルをトレーニングできるようにする,堅牢でクリーンなデータのないバックドア防御フレームワークであるMellivora Capensis(textttMeCa)を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:20:19Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Securely Fine-tuning Pre-trained Encoders Against Adversarial Examples [28.947545367473086]
本稿では,下流モデルのロバスト性向上を目的とした2段階逆微調整手法を提案する。
Gen-AFは最先端のDAEに対して高い試験精度と堅牢な試験精度を達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-16T04:23:46Z) - Robust Synthetic Data-Driven Detection of Living-Off-the-Land Reverse Shells [14.710331873072146]
LOTL(Living-off-the-land)技術は、セキュリティ運用において大きな課題となる。
セキュリティ情報およびイベント管理(SIEM)ソリューションとして,サイバー防衛システムのための堅牢な拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T13:49:23Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。