論文の概要: TrojText: Test-time Invisible Textual Trojan Insertion
- arxiv url: http://arxiv.org/abs/2303.02242v1
- Date: Fri, 3 Mar 2023 22:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:51:56.619843
- Title: TrojText: Test-time Invisible Textual Trojan Insertion
- Title(参考訳): TrojText: テストタイムで見えないテキストトロイの木馬のインサーション
- Authors: Yepeng Liu, Bo Feng, Qian Lou
- Abstract要約: 自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルテストデータを用いて、望ましい攻撃を実現する。
- 参考スコア(独自算出の注目度): 18.735225564692414
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In Natural Language Processing (NLP), intelligent neuron models can be
susceptible to textual Trojan attacks. Such attacks occur when Trojan models
behave normally for standard inputs but generate malicious output for inputs
that contain a specific trigger. Syntactic-structure triggers, which are
invisible, are becoming more popular for Trojan attacks because they are
difficult to detect and defend against. However, these types of attacks require
a large corpus of training data to generate poisoned samples with the necessary
syntactic structures for Trojan insertion. Obtaining such data can be difficult
for attackers, and the process of generating syntactic poisoned triggers and
inserting Trojans can be time-consuming. This paper proposes a solution called
TrojText, which aims to determine whether invisible textual Trojan attacks can
be performed more efficiently and cost-effectively without training data. The
proposed approach, called the Representation-Logit Trojan Insertion (RLI)
algorithm, uses smaller sampled test data instead of large training data to
achieve the desired attack. The paper also introduces two additional
techniques, namely the accumulated gradient ranking (AGR) and Trojan Weights
Pruning (TWP), to reduce the number of tuned parameters and the attack
overhead. The TrojText approach was evaluated on three datasets (AG's News,
SST-2, and OLID) using three NLP models (BERT, XLNet, and DeBERTa). The
experiments demonstrated that the TrojText approach achieved a 98.35\%
classification accuracy for test sentences in the target class on the BERT
model for the AG's News dataset. The source code for TrojText is available at
https://github.com/UCF-ML-Research/TrojText.
- Abstract(参考訳): 自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
このような攻撃はTrojanモデルが通常の入力に対して正常に振る舞うが、特定のトリガを含む入力に対して悪意のある出力を生成するときに発生する。
目に見えない構文構造トリガーは、検出や防御が難しいため、トロイの木馬攻撃で人気が高まっている。
しかし、これらの攻撃はトロイの木馬の挿入に必要な構文構造を持つ有毒なサンプルを生成するために大量の訓練データを必要とする。
このようなデータを取得することは攻撃者にとって困難であり、構文的な毒のトリガーを生成し、トロイの木馬を挿入するプロセスは時間がかかる。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルデータを用いて、望ましい攻撃を実現する。
また,累積勾配ランキング(AGR)とTWP(Trojan Weights Pruning)という2つの手法を導入し,調整パラメータの数と攻撃オーバーヘッドを削減する。
TrojTextアプローチは、3つのNLPモデル(BERT, XLNet, DeBERTa)を用いて、3つのデータセット(AG's News, SST-2, OLID)で評価した。
実験により、TrojTextアプローチは、AGのNewsデータセットのBERTモデルのターゲットクラスにおけるテスト文の98.35\%の分類精度を達成した。
TrojTextのソースコードはhttps://github.com/UCF-ML-Research/TrojTextで入手できる。
関連論文リスト
- TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models [29.66515518909497]
TrojLLMは、普遍的でステルス的なトリガーを生成する自動かつブラックボックスフレームワークである。
個別のプロンプト内にトロイの木馬を埋め込むことをサポートし、トリガーの攻撃の全体的な効果と精度を高める。
実世界のブラックボックスLPM APIにおけるテキストプロンプトにTrojLLMを効果的に挿入する能力を示す実験と結果を得た。
論文 参考訳(メタデータ) (2023-06-12T01:22:39Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - Game of Trojans: A Submodular Byzantine Approach [9.512062990461212]
本稿では,敵の能力と敵と検出機構の戦略的相互作用の分析的特徴について述べる。
サブモジュラートロイの木馬アルゴリズムを用いて,トロイの木馬のトリガを注入するサンプルを最小限に決定する。
対戦相手が確率1でゲームに勝つことを示し、検出をバイパスする。
論文 参考訳(メタデータ) (2022-07-13T03:12:26Z) - Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free [126.15842954405929]
トロイの木馬攻撃はディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、トリガーを付けた入力に対して操作された結果を生成する。
そこで我々は,まず,クリーンな入力において,ほぼ完全なトロイの木馬の情報のみを保存し,かつ,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬ネットワーク検出方式を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:33:31Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。