論文の概要: Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models
- arxiv url: http://arxiv.org/abs/2406.05660v2
- Date: Sat, 7 Sep 2024 13:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:11:38.429218
- Title: Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models
- Title(参考訳): 難読ニューラルネットワークと言語モデルに検出不能なバックドアを注入する
- Authors: Alkis Kalavasis, Amin Karbasi, Argyris Oikonomou, Katerina Sotiraki, Grigoris Velegkas, Manolis Zampetakis,
- Abstract要約: 外部の専門家企業が開発したMLモデルにおいて,検出不能なバックドアによる脅威について検討する。
我々は,難読性難読化の概念のセキュリティ性を満足する,難読化ニューラルネットワークにバックドアを植える戦略を開発した。
バックドアを植える手法は, 難読化モデルの重量や構造がアクセス可能である場合でも, バックドアの存在が検出できないことを保証している。
- 参考スコア(独自算出の注目度): 39.34881774508323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As ML models become increasingly complex and integral to high-stakes domains such as finance and healthcare, they also become more susceptible to sophisticated adversarial attacks. We investigate the threat posed by undetectable backdoors, as defined in Goldwasser et al. (FOCS '22), in models developed by insidious external expert firms. When such backdoors exist, they allow the designer of the model to sell information on how to slightly perturb their input to change the outcome of the model. We develop a general strategy to plant backdoors to obfuscated neural networks, that satisfy the security properties of the celebrated notion of indistinguishability obfuscation. Applying obfuscation before releasing neural networks is a strategy that is well motivated to protect sensitive information of the external expert firm. Our method to plant backdoors ensures that even if the weights and architecture of the obfuscated model are accessible, the existence of the backdoor is still undetectable. Finally, we introduce the notion of undetectable backdoors to language models and extend our neural network backdoor attacks to such models based on the existence of steganographic functions.
- Abstract(参考訳): MLモデルはますます複雑になり、金融や医療といった高額な領域に不可欠なものになりつつあり、また、高度な敵の攻撃を受けやすいものになっている。
我々は、悪質な外部の専門家企業によって開発されたモデルにおいて、検出不能なバックドアによる脅威について、Goldwasser et al (FOCS '22)で定義されている。
このようなバックドアが存在する場合、モデルの設計者はモデルの結果を変えるために入力をわずかに摂動する方法に関する情報を販売できる。
我々は,難読性難読化の概念のセキュリティ性を満足する,難読化ニューラルネットワークにバックドアを植える一般的な戦略を開発する。
ニューラルネットワークをリリースする前に難読化を適用することは、外部の専門家企業の機密情報を保護するための、十分に動機付けられた戦略です。
バックドアを植える手法は, 難読化モデルの重量や構造がアクセス可能である場合でも, バックドアの存在が検出できないことを保証している。
最後に、検出不能なバックドアの概念を言語モデルに導入し、ステガノグラフ関数の存在に基づいてニューラルネットワークのバックドア攻撃をそのようなモデルに拡張する。
関連論文リスト
- Rethinking Backdoor Detection Evaluation for Language Models [45.34806299803778]
バックドア攻撃は、公開された言語モデルに依存する実践者にとって大きなセキュリティリスクをもたらす。
バックドア検出方法は、リリースされたモデルにバックドアが含まれているかどうかを検出することを目的としている。
既存のバックドア検出手法は標準ベンチマークでバックドアモデルを検出するのに高い精度を持っているが、野生のバックドアを堅牢に識別できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-08-31T09:19:39Z) - Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits [1.1118610055902116]
自己回帰型トランスフォーマーモデルに新しいバックドアのクラスを導入する。
無効性により、ディフェンダーがバックドアを起動するのを防ぎ、デプロイ前に評価や検出が不可能になる。
我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:55:41Z) - Architectural Neural Backdoors from First Principles [44.83442736206931]
アーキテクチャバックドアは、ネットワークアーキテクチャの定義内に埋め込まれたバックドアです。
この作業では、人間の監督なしにアーキテクチャのバックドアとして使用できる任意のトリガー検出器を構築します。
アーキテクチャのバックドアに対する防御について議論し、MLシステムの完全性を保護するための堅牢で包括的な戦略の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-10T13:57:51Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Backdoors in Neural Models of Source Code [13.960152426268769]
ソースコードの深層学習の文脈でバックドアを研究する。
このようなバックドアをインストールするためにデータセットに毒を盛る方法を示す。
また、バックドアの注入の容易さと、それを除去する能力も示しています。
論文 参考訳(メタデータ) (2020-06-11T21:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。