論文の概要: Detecting Trojaned DNNs via Spectral Regression Analysis
- arxiv url: http://arxiv.org/abs/2605.21146v1
- Date: Wed, 20 May 2026 13:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.690926
- Title: Detecting Trojaned DNNs via Spectral Regression Analysis
- Title(参考訳): スペクトル回帰分析によるトロイの木馬DNNの検出
- Authors: Samuele Pasini, Jinhan Kim, Paolo Tonella,
- Abstract要約: MISTは、微調整中にモデルの内部表現がどのように変化するかを分析するトロイの木馬検出アプローチである。
4つのデータセットと8つのトロイア攻撃による実証的な評価は、スペクトル距離がトロイア更新とクリーンな微調整を確実に区別していることを示している。
- 参考スコア(独自算出の注目度): 7.72636722205447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern DNNs are repeatedly fine-tuned to incorporate new data and functionality. This evolutionary workflow introduces a security risk when updated data cannot be fully trusted, as adversaries may implant Trojans during fine-tuning. We present MIST, a Trojan detection approach that analyzes how a model's internal representations change during fine-tuning. Rather than attempting to reconstruct trigger conditions, MIST characterizes benign model evolution using pre-activation spectra and flags updates whose spectral deviations are inconsistent with this reference. This framing treats Trojan detection as a regression problem over model updates. An empirical evaluation across four datasets and eight Trojan attacks shows that spectral distances reliably distinguish Trojaned updates from clean fine-tuning. MIST outperforms state-of-the-art detection accuracy after a single update, without requiring any knowledge about the poisoned data or the trigger, and remains effective under multi-step benign evolution, with graceful and bounded degradation. These results indicate that spectral evolution provides a stable and assumption-light signal for detecting malicious model updates.
- Abstract(参考訳): 最新のDNNは、新しいデータと機能を組み込むために、繰り返し微調整される。
この進化的ワークフローは、更新されたデータが完全に信頼できない場合にセキュリティリスクをもたらす。
我々は、微調整中にモデルの内部表現がどのように変化するかを分析するトロイの木馬検出手法であるMISTを提案する。
MISTはトリガ条件を再構築する代わりに、事前アクティベーションスペクトルを用いて良質なモデル進化を特徴付け、スペクトル偏差がこの基準と矛盾するフラグを更新する。
このフレーミングは、トロイの木馬検出をモデル更新よりも回帰問題として扱う。
4つのデータセットと8つのトロイア攻撃による実証的な評価は、スペクトル距離がトロイア更新とクリーンな微調整を確実に区別していることを示している。
MISTは、有毒なデータやトリガーに関する知識を必要とせず、単一の更新後の最先端検出精度より優れており、優雅で境界のある劣化を伴う多段階の良性進化の下でも有効である。
これらの結果は、スペクトルの進化が、悪意のあるモデル更新を検出するための安定かつ仮定光信号を提供することを示している。
関連論文リスト
- EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy [66.59724477993339]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-05-15T08:01:32Z) - DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - Regression-aware Continual Learning for Android Malware Detection [9.695692033183485]
マルウェアは急速に進化し、機械学習(ML)ベースの検出器を継続的に適応させる。
継続的学習(CL)はスケーラブルな代替手段として登場し、完全なデータアクセスなしにインクリメンタルな更新を可能にする。
しかし、セキュリティレグレッションは、一度正しく検出されたが、モデル更新後の検出を回避したマルウェアサンプルのような、サンプルレベルでの有害な予測変更をキャプチャする。
CLをベースとしたマルウェア検知器のセキュリティレグレッションを形式化し,定量化し,その軽減を目的としたレグレッション・アウェア・ペナルティを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:31:23Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Updating Windows Malware Detectors: Balancing Robustness and Regression against Adversarial EXEmples [8.911277142080934]
Windows マルウェア検出装置の更新における精度と回帰のトレードオフについて検討する。
既存の検出器にチェーンしてEXEmplesを迅速に停止するプラグインであるEXE-Scannerを提案する。
論文 参考訳(メタデータ) (2024-05-04T12:12:23Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications [21.854581570954075]
トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
論文 参考訳(メタデータ) (2022-08-08T22:50:03Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。