論文の概要: Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions
- arxiv url: http://arxiv.org/abs/2605.04209v1
- Date: Tue, 05 May 2026 18:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.494115
- Title: Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions
- Title(参考訳): モデルパラメータにおける検出不能なバックドア:高次元におけるスパースシークレットの保持
- Authors: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha,
- Abstract要約: Sparse Backdoorは、事前に訓練された画像分類器に検出不能なバックドアを植え付けるサプライチェーン攻撃である。
この攻撃は、ランダムに選択された方向に沿って構造化された摂動を各完全に連結された層に小さな列のサブセットに注入する。
逆長線標的クラスにトリガーシグナルを伝達し、独立した等方性ジターで摂動を隠蔽する。
- 参考スコア(独自算出の注目度): 27.15028670439718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Sparse Backdoor, a supply-chain attack that plants a \emph{provably undetectable} backdoor in pre-trained image classifiers, including convolutional networks and Vision Transformers. The attack injects a structured sparse perturbation along a randomly chosen direction into a small subset of columns at each fully connected layer, propagating a trigger signal to an adversary-chosen target class, and masks the perturbation with an independent isotropic Gaussian dither. The dither serves a single technical purpose: it induces a clean reference distribution anchored at the pre-trained weights, against which undetectability can be formalized. Under a mild margin condition on the pre-trained classifier, we show that the dithered reference is functionally equivalent to the original classifier. We prove that distinguishing the backdoor-injected model from this reference is at least as hard as Sparse PCA detection, which is computationally infeasible under standard hardness assumptions. The guarantee holds against any probabilistic polynomial-time distinguisher with white-box access to the parameters.
- Abstract(参考訳): 我々は、畳み込みネットワークやビジョントランスフォーマーを含む、事前訓練された画像分類器に‘emph{provably undetectable} バックドアを配置するサプライチェーンアタックであるSparse Backdoorを紹介する。
この攻撃は、ランダムに選択された方向に沿って構成されたスパース摂動を、全連結層の各列の小さなサブセットに注入し、トリガー信号を敵のチョーゼンターゲットクラスに伝播させ、独立の等方性ガウスディザーで摂動を隠蔽する。
ディザは1つの技術的目的を果たす: 事前訓練された重みに固定されたクリーンな参照分布を誘導する。
事前学習した分類器の限界条件下では、ディザード参照が元の分類器と機能的に等価であることを示す。
バックドア注入モデルとこの基準を区別することは、標準硬度仮定では計算不可能なスパースPCA検出と同程度に困難であることを示す。
この保証は、パラメータへのホワイトボックスアクセスを持つ確率多項式時間微分器に対して成り立つ。
関連論文リスト
- FLARE: Toward Universal Dataset Purification against Backdoor Attacks [16.97677097266535]
ディープニューラルネットワーク(DNN)は、バックドア攻撃の影響を受けやすい。
隠れたバックドアを埋め込むために、敵に特定されたトリガーを持つ敵の毒のデータセット。
各種バックドア攻撃に対する汎用的浄化法であるFLAREを提案する。
論文 参考訳(メタデータ) (2024-11-29T05:34:21Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Planting Undetectable Backdoors in Machine Learning Models [14.592078676445201]
悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを示す。
論文 参考訳(メタデータ) (2022-04-14T13:55:21Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。