論文の概要: Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits
- arxiv url: http://arxiv.org/abs/2406.02619v1
- Date: Mon, 3 Jun 2024 17:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:29:51.875715
- Title: Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits
- Title(参考訳): 暗号変換器回路を用いた言語モデルにおける未知のバックドア
- Authors: Andis Draguns, Andrew Gritsevskiy, Sumeet Ramesh Motwani, Charlie Rogers-Smith, Jeffrey Ladish, Christian Schroeder de Witt,
- Abstract要約: 自己回帰型トランスフォーマーモデルに新しいバックドアのクラスを導入する。
無効性により、ディフェンダーがバックドアを起動するのを防ぎ、デプロイ前に評価や検出が不可能になる。
我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
- 参考スコア(独自算出の注目度): 1.1118610055902116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of open-source language models significantly increases the risks of downstream backdoor attacks. These backdoors can introduce dangerous behaviours during model deployment and can evade detection by conventional cybersecurity monitoring systems. In this paper, we introduce a novel class of backdoors in autoregressive transformer models, that, in contrast to prior art, are unelicitable in nature. Unelicitability prevents the defender from triggering the backdoor, making it impossible to evaluate or detect ahead of deployment even if given full white-box access and using automated techniques, such as red-teaming or certain formal verification methods. We show that our novel construction is not only unelicitable thanks to using cryptographic techniques, but also has favourable robustness properties. We confirm these properties in empirical investigations, and provide evidence that our backdoors can withstand state-of-the-art mitigation strategies. Additionally, we expand on previous work by showing that our universal backdoors, while not completely undetectable in white-box settings, can be harder to detect than some existing designs. By demonstrating the feasibility of seamlessly integrating backdoors into transformer models, this paper fundamentally questions the efficacy of pre-deployment detection strategies. This offers new insights into the offence-defence balance in AI safety and security.
- Abstract(参考訳): オープンソース言語モデルの急速な普及は、下流のバックドア攻撃のリスクを著しく高める。
これらのバックドアは、モデル展開中に危険な振る舞いを導入し、従来のサイバーセキュリティ監視システムによる検出を回避することができる。
本稿では,従来の技術とは対照的に,自己回帰型トランスフォーマーモデルにおけるバックドアの新たなクラスについて紹介する。
無効性は、ディフェンダーがバックドアをトリガーすることを防ぐため、完全なホワイトボックスアクセスを与えられたり、レッドチームや特定の形式的な検証方法のような自動化技術を使用したりしても、デプロイ前に評価や検出が不可能になる。
我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
これらの特性を実証的な調査で確認し、我々のバックドアが最先端の緩和戦略に耐えられることを示す。
さらに、ホワイトボックス設定で完全に検出できないような普遍的なバックドアは、既存の設計よりも検出が難しいことを示して、これまでの作業を拡張しました。
本稿では, トランスモデルへのバックドアのシームレスな統合の実現可能性を示すことによって, プリデプロイ検出戦略の有効性を根本的に疑問視する。
これにより、AIの安全性とセキュリティにおける犯罪と防御のバランスに関する新たな洞察が得られる。
関連論文リスト
- Injecting Undetectable Backdoors in Deep Learning and Language Models [39.34881774508323]
外部の専門家企業が開発したMLモデルにおいて,検出不能なバックドアによる脅威について検討する。
我々は、バックドアの存在がまだ検出不可能であることを保証しながら、ニューラルネットワークにバックドアを植える戦略を開発する。
我々は、ステガノグラフィー機能の存在に基づいて、ニューラルネットワークのバックドア攻撃をそのようなモデルに拡張する。
論文 参考訳(メタデータ) (2024-06-09T06:26:21Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Architectural Backdoors in Neural Networks [27.315196801989032]
モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
論文 参考訳(メタデータ) (2022-06-15T22:44:03Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。
本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。
提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文 参考訳(メタデータ) (2021-02-20T15:25:36Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。