論文の概要: MergeGuard: Efficient Thwarting of Trojan Attacks in Machine Learning Models
- arxiv url: http://arxiv.org/abs/2505.04015v1
- Date: Tue, 06 May 2025 23:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.933524
- Title: MergeGuard: Efficient Thwarting of Trojan Attacks in Machine Learning Models
- Title(参考訳): MergeGuard: マシンラーニングモデルにおけるトロイの木馬攻撃の効率的回避
- Authors: Soheil Zibakhsh Shabgahi, Yaman Jandali, Farinaz Koushanfar,
- Abstract要約: AIモデルに対するトロイの木馬攻撃は、トリガーに埋め込まれた入力を敵のターゲットクラスに誤って分類する。
MergeGuardの中核は、完全に接続されたレイヤをリニア化およびマージするための新しいポストトレーニング手法である。
We Proof of Concept Evaluation on Transformer model showed that MergeGuard maintains model accuracy while reducing trojan attack success rate。
- 参考スコア(独自算出の注目度): 12.419807304747309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes MergeGuard, a novel methodology for mitigation of AI Trojan attacks. Trojan attacks on AI models cause inputs embedded with triggers to be misclassified to an adversary's target class, posing a significant threat to model usability trained by an untrusted third party. The core of MergeGuard is a new post-training methodology for linearizing and merging fully connected layers which we show simultaneously improves model generalizability and performance. Our Proof of Concept evaluation on Transformer models demonstrates that MergeGuard maintains model accuracy while decreasing trojan attack success rate, outperforming commonly used (post-training) Trojan mitigation by fine-tuning methodologies.
- Abstract(参考訳): 本稿では,AIトロイの木馬攻撃の軽減手法であるMergeGuardを提案する。
AIモデルに対するトロイの木馬攻撃は、トリガーに埋め込まれた入力を敵のターゲットクラスに誤分類させ、信頼できない第三者によってトレーニングされたモデルのユーザビリティに重大な脅威をもたらす。
MergeGuardのコアは、完全に接続されたレイヤを線形化し、マージするための新しいポストトレーニング手法である。
We Proof of Concept Evaluation on Transformer model showed that MergeGuard has maintains model accuracy while reducing Trojan attack success rate, out out Performance of common use (post-training) Trojan mitigation by fine-tuning methodologies。
関連論文リスト
- Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - TRIGS: Trojan Identification from Gradient-based Signatures [13.37492199234584]
機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-06-08T02:17:29Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - Game of Trojans: A Submodular Byzantine Approach [9.512062990461212]
本稿では,敵の能力と敵と検出機構の戦略的相互作用の分析的特徴について述べる。
サブモジュラートロイの木馬アルゴリズムを用いて,トロイの木馬のトリガを注入するサンプルを最小限に決定する。
対戦相手が確率1でゲームに勝つことを示し、検出をバイパスする。
論文 参考訳(メタデータ) (2022-07-13T03:12:26Z) - Trojan Horse Training for Breaking Defenses against Backdoor Attacks in
Deep Learning [7.3007220721129364]
バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。
現在のシングルターゲットバックドア攻撃では、ターゲットクラス毎に1つのトリガーが必要である。
我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。
論文 参考訳(メタデータ) (2022-03-25T02:54:27Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。