論文の概要: Analyzing Multi-Head Attention on Trojan BERT Models
- arxiv url: http://arxiv.org/abs/2406.16925v1
- Date: Wed, 12 Jun 2024 06:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:31:46.723497
- Title: Analyzing Multi-Head Attention on Trojan BERT Models
- Title(参考訳): トロイの木馬BERTモデルにおけるマルチヘッドアテンションの解析
- Authors: Jingwei Wang,
- Abstract要約: 本稿では,トランスフォーマーモデルにおけるマルチヘッドアテンションの挙動について検討し,特に感情分析の文脈における良性モデルとトロイの木馬モデルの違いに着目した。
本研究では,トロイの木馬とベニグニグニグニグニグニグナグニグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグ
- 参考スコア(独自算出の注目度): 2.465689259704613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This project investigates the behavior of multi-head attention in Transformer models, specifically focusing on the differences between benign and trojan models in the context of sentiment analysis. Trojan attacks cause models to perform normally on clean inputs but exhibit misclassifications when presented with inputs containing predefined triggers. We characterize attention head functions in trojan and benign models, identifying specific 'trojan' heads and analyzing their behavior.
- Abstract(参考訳): 本稿では,トランスフォーマーモデルにおけるマルチヘッドアテンションの挙動について検討し,特に感情分析の文脈における良性モデルとトロイの木馬モデルの違いに着目した。
トロイの木馬攻撃はモデルが正常にクリーンな入力で動作させるが、事前に定義されたトリガーを含む入力が提示されたときに誤分類を示す。
本研究では,トロイの木馬とベニグニグニグニグニグニグナグニグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグ
関連論文リスト
- Solving Trojan Detection Competitions with Linear Weight Classification [1.24275433420322]
既存のデータセットやドメインの多くで驚くほどうまく機能する検出器を導入します。
我々はこのアルゴリズムを、トロイの木馬検出ベンチマークとドメインの多種多様なセットで評価する。
論文 参考訳(メタデータ) (2024-11-05T19:00:34Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Attention Hijacking in Trojan Transformers [68.04317938014067]
トロイの木馬攻撃はAIシステムに深刻な脅威をもたらす。
トランスフォーマーモデルに関する最近の研究は爆発的な人気を得た。
BERT と ViT の注意機構を通してトロヤ群を明らかにすることは可能か?
論文 参考訳(メタデータ) (2022-08-09T04:05:04Z) - A Study of the Attention Abnormality in Trojaned BERTs [12.623010398576067]
トロイアの攻撃は深刻な安全保障上の懸念を引き起こす。
トロイの木馬模型の注目焦点ドリフト挙動を観察する。
我々は、トロイの木馬モデルとクリーンなものを区別するための注意に基づくトロイの木馬検出器を提案する。
論文 参考訳(メタデータ) (2022-05-13T16:48:37Z) - Topological Detection of Trojaned Neural Networks [10.559903139528252]
トロイの木馬攻撃は、攻撃者がモデルの動きを密かに操作する際に起こる。
トロイの木馬模型を特徴付ける微妙な構造偏差が見つかる。
トロイの木馬モデルのロバスト検出のための戦略を考案する。
論文 参考訳(メタデータ) (2021-06-11T15:48:16Z) - Detecting Trojaned DNNs Using Counterfactual Attributions [15.988574580713328]
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
論文 参考訳(メタデータ) (2020-12-03T21:21:33Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。