論文の概要: To Transfer or Not to Transfer: Misclassification Attacks Against
Transfer Learned Text Classifiers
- arxiv url: http://arxiv.org/abs/2001.02438v1
- Date: Wed, 8 Jan 2020 10:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 10:01:04.117902
- Title: To Transfer or Not to Transfer: Misclassification Attacks Against
Transfer Learned Text Classifiers
- Title(参考訳): 転送または転送しない:転送学習テキスト分類器に対する誤分類攻撃
- Authors: Bijeeta Pal and Shruti Tople
- Abstract要約: 本稿では,教師(公)モデルで学習した意図しない特徴を利用して,生徒(下流)モデルに対する敵対的な例を生成する新しい攻撃手法を提案する。
まず,文脈自由な単語レベルの埋め込みモデルを用いて学習した学生モデルに対して,新たな単語スコアベースの攻撃アルゴリズムを提案する。
次に、文脈対応BERTモデルを用いて訓練されたフェイクニュース検出タスクに対して、長さベースおよび文ベース誤分類攻撃を示す。
- 参考スコア(独自算出の注目度): 10.762008415887195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning --- transferring learned knowledge --- has brought a
paradigm shift in the way models are trained. The lucrative benefits of
improved accuracy and reduced training time have shown promise in training
models with constrained computational resources and fewer training samples.
Specifically, publicly available text-based models such as GloVe and BERT that
are trained on large corpus of datasets have seen ubiquitous adoption in
practice. In this paper, we ask, "can transfer learning in text prediction
models be exploited to perform misclassification attacks?" As our main
contribution, we present novel attack techniques that utilize unintended
features learnt in the teacher (public) model to generate adversarial examples
for student (downstream) models. To the best of our knowledge, ours is the
first work to show that transfer learning from state-of-the-art word-based and
sentence-based teacher models increase the susceptibility of student models to
misclassification attacks. First, we propose a novel word-score based attack
algorithm for generating adversarial examples against student models trained
using context-free word-level embedding model. On binary classification tasks
trained using the GloVe teacher model, we achieve an average attack accuracy of
97% for the IMDB Movie Reviews and 80% for the Fake News Detection. For
multi-class tasks, we divide the Newsgroup dataset into 6 and 20 classes and
achieve an average attack accuracy of 75% and 41% respectively. Next, we
present length-based and sentence-based misclassification attacks for the Fake
News Detection task trained using a context-aware BERT model and achieve 78%
and 39% attack accuracy respectively. Thus, our results motivate the need for
designing training techniques that are robust to unintended feature learning,
specifically for transfer learned models.
- Abstract(参考訳): トランスファーラーニング -- 学習知識の伝達 -- は、モデルのトレーニング方法にパラダイムシフトをもたらした。
精度の向上とトレーニング時間の短縮による利益は、制約のある計算リソースと少ないトレーニングサンプルを持つトレーニングモデルに有望であることが示されている。
具体的には、大きなデータセットのコーパスでトレーニングされたgraveやbertといった、広く入手可能なテキストベースのモデルが、実際に広く採用されている。
本稿では,「テキスト予測モデルにおける転送学習は,誤分類攻撃を行うために活用できるか?
本研究は,教師(公開)モデルで学習した意図しない機能を用いて,学生(ダウンストリーム)モデルの敵対的例を生成する新しい攻撃手法を提案する。
私たちの知る限りでは、最先端の単語ベースと文ベースの教師モデルからの転校学習が、学生モデルの誤分類攻撃に対する感受性を高めることを示す最初の研究です。
まず,文脈自由な単語レベルの埋め込みモデルを用いて学習した学生モデルに対して,新たな単語スコアベースの攻撃アルゴリズムを提案する。
また,GloVe 教師モデルを用いて訓練した二分分類タスクにおいて,IMDB 映画レビューでは97%,フェイクニュース検出では80%の攻撃精度が得られた。
マルチクラスタスクでは、Newsgroupデータセットを6クラスと20クラスに分割し、それぞれ75%と41%の平均攻撃精度を達成する。
次に,文脈対応BERTモデルを用いて学習したFake News Detectionタスクに対して,長さベースおよび文ベース誤分類攻撃を行い,それぞれ78%,39%の攻撃精度を達成した。
したがって,本研究の結果は意図しない特徴学習,特に伝達学習モデルに頑健なトレーニング技術を設計する必要性を動機付けている。
関連論文リスト
- Boosting Model Inversion Attacks with Adversarial Examples [26.904051413441316]
ブラックボックス設定において、より高い攻撃精度を達成できる学習ベースモデル反転攻撃のための新しい訓練パラダイムを提案する。
まず,攻撃モデルの学習過程を,意味的損失関数を追加して規則化する。
第2に、学習データに逆例を注入し、クラス関連部の多様性を高める。
論文 参考訳(メタデータ) (2023-06-24T13:40:58Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Adversarial Vulnerability of Active Transfer Learning [0.0]
小さなデータセット上で教師付き機械学習モデルをトレーニングするための2つの広く使用されているテクニックは、Active LearningとTransfer Learningである。
これらの手法の組み合わせは、特に新しい種類のデータ中毒攻撃の影響を受けやすいことを示す。
このような有毒データセットでトレーニングされたモデルは、かなり性能が低下し、86%から34%のテスト精度が低下した。
論文 参考訳(メタデータ) (2021-01-26T14:07:09Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Leveraging Siamese Networks for One-Shot Intrusion Detection Model [0.0]
侵入検知システムを強化するための機械学習(ML)が重要な研究対象となっている。
モデルの再トレーニングは、十分な量のデータを取得するのに必要なタイムウインドウのために、ネットワークが攻撃を受けやすいようにする。
ここでは、「ワンショットラーニング」と呼ばれる補完的なアプローチで、新しい攻撃クラスを識別するために、新しい攻撃クラスの限られた例を用いる。
Siamese Networkは、機能ではなく、ペアの類似性に基づいてクラスを区別するように訓練されており、新しい、以前は目に見えない攻撃を識別することができる。
論文 参考訳(メタデータ) (2020-06-27T11:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。