論文の概要: Model Extraction and Adversarial Transferability, Your BERT is
Vulnerable!
- arxiv url: http://arxiv.org/abs/2103.10013v1
- Date: Thu, 18 Mar 2021 04:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:05:10.514667
- Title: Model Extraction and Adversarial Transferability, Your BERT is
Vulnerable!
- Title(参考訳): モデル抽出と逆転送性、BERTは脆弱性です!
- Authors: Xuanli He and Lingjuan Lyu and Qiongkai Xu and Lichao Sun
- Abstract要約: 敵がBERTベースのAPIサービスを、事前知識とクエリに制限のある複数のベンチマークデータセットで盗む方法を示す。
また, 抽出したモデルが, 被害者モデルに対する高度に転送可能な敵攻撃につながることを示す。
私たちの研究は、被害者モデルと攻撃モデルの間にアーキテクチャ上のミスマッチがある場合でも、BERTベースのAPIサービスの潜在的な脆弱性がまだ保持されていることを示しています。
- 参考スコア(独自算出の注目度): 11.425692676973332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing (NLP) tasks, ranging from text classification to
text generation, have been revolutionised by the pre-trained language models,
such as BERT. This allows corporations to easily build powerful APIs by
encapsulating fine-tuned BERT models for downstream tasks. However, when a
fine-tuned BERT model is deployed as a service, it may suffer from different
attacks launched by malicious users. In this work, we first present how an
adversary can steal a BERT-based API service (the victim/target model) on
multiple benchmark datasets with limited prior knowledge and queries. We
further show that the extracted model can lead to highly transferable
adversarial attacks against the victim model. Our studies indicate that the
potential vulnerabilities of BERT-based API services still hold, even when
there is an architectural mismatch between the victim model and the attack
model. Finally, we investigate two defence strategies to protect the victim
model and find that unless the performance of the victim model is sacrificed,
both model ex-traction and adversarial transferability can effectively
compromise the target models
- Abstract(参考訳): 自然言語処理(NLP)タスクは、テキスト分類からテキスト生成まで、BERTのような事前訓練された言語モデルによって革新されている。
これにより企業は、ダウンストリームタスク用に微調整されたBERTモデルをカプセル化することで、強力なAPIを簡単に構築できる。
しかし、微調整されたBERTモデルがサービスとしてデプロイされると、悪意のあるユーザによって起動される異なる攻撃に悩まされる可能性がある。
本研究では,まず,複数のベンチマークデータセット上のBERTベースのAPIサービス(被害者/ターゲットモデル)を,事前知識とクエリに制限のある形で盗む方法を示す。
さらに, 抽出したモデルが, 被害者モデルに対する高度に転送可能な攻撃につながることを示す。
我々の研究は、被害者モデルと攻撃モデルとの間にアーキテクチャ上のミスマッチがあったとしても、BERTベースのAPIサービスの潜在的な脆弱性が依然として保持されていることを示唆している。
最後に,被害者モデルを守るための2つの防衛戦略について検討し,被害者モデルの性能が犠牲にされない限り,モデル抽出と敵対的伝達性の両方が,ターゲットモデルに効果的に侵害する可能性があることを発見した。
関連論文リスト
- MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。
提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文 参考訳(メタデータ) (2024-03-27T13:59:21Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Arabic Synonym BERT-based Adversarial Examples for Text Classification [0.0]
本稿では、アラビア語における敵対的攻撃に関する最初の単語レベル研究を紹介する。
我々は、現在最先端のテキスト分類モデルの頑健さを、アラビア語の敵対的攻撃に対して評価する。
新たに生成したアラビアの敵対的事例の様々なモデルへの転送可能性について検討し、防御機構の有効性について検討した。
論文 参考訳(メタデータ) (2024-02-05T19:39:07Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Killing Two Birds with One Stone: Stealing Model and Inferring Attribute
from BERT-based APIs [26.38350928431939]
本稿では,BERTベースのAPIを事実上盗むことができる効果的なモデル抽出攻撃を提案する。
BERTベースのAPIで使用されるトレーニングデータのセンシティブな属性を明らかにするための効果的な推論攻撃を開発する。
論文 参考訳(メタデータ) (2021-05-23T10:38:23Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - DaST: Data-free Substitute Training for Adversarial Attacks [55.76371274622313]
本研究では,敵対的ブラックボックス攻撃の代替モデルを得るためのデータフリー代替訓練法(DaST)を提案する。
これを実現するため、DaSTは特別に設計されたGANを用いて代替モデルを訓練する。
実験では、代替モデルがベースラインモデルと比較して競争性能を発揮することを示した。
論文 参考訳(メタデータ) (2020-03-28T04:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。