論文の概要: Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by
Rewriting Text
- arxiv url: http://arxiv.org/abs/2305.16444v1
- Date: Thu, 25 May 2023 19:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 18:27:55.678804
- Title: Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by
Rewriting Text
- Title(参考訳): Don't Retrain, just rewrite: Countering Adversarial Perturbations by Rewriting Text
- Authors: Ashim Gupta, Carter Wood Blum, Temma Choji, Yingjie Fei, Shalin Shah,
Alakananda Vempala, Vivek Srikumar
- Abstract要約: 我々は、敵入力をインターセプトし、非敵入力に書き換えるモデルATINTERを提案する。
実験の結果,ATINTERは既存の防御手法よりも優れた敵の堅牢性を提供するのに有効であることが判明した。
- 参考スコア(独自算出の注目度): 40.491180210205556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can language models transform inputs to protect text classifiers against
adversarial attacks? In this work, we present ATINTER, a model that intercepts
and learns to rewrite adversarial inputs to make them non-adversarial for a
downstream text classifier. Our experiments on four datasets and five attack
mechanisms reveal that ATINTER is effective at providing better adversarial
robustness than existing defense approaches, without compromising task
accuracy. For example, on sentiment classification using the SST-2 dataset, our
method improves the adversarial accuracy over the best existing defense
approach by more than 4% with a smaller decrease in task accuracy (0.5% vs
2.5%). Moreover, we show that ATINTER generalizes across multiple downstream
tasks and classifiers without having to explicitly retrain it for those
settings. Specifically, we find that when ATINTER is trained to remove
adversarial perturbations for the sentiment classification task on the SST-2
dataset, it even transfers to a semantically different task of news
classification (on AGNews) and improves the adversarial robustness by more than
10%.
- Abstract(参考訳): 言語モデルは、テキスト分類器を保護するために入力を変換できるのか?
本稿では,ATINTERについて述べる。ATINTERは,逆入力をインターセプトし,書き直しを学習し,下流テキスト分類器の非逆変換を行うモデルである。
4つのデータセットと5つの攻撃機構について実験したところ、ATINTERはタスク精度を損なうことなく、既存の防御手法よりも優れた敵の堅牢性を提供できることがわかった。
例えば、sst-2データセットを用いた感情分類において、提案手法は、最善の防御アプローチよりも、タスク精度の0.5%と2.5%の低下で4%以上の精度向上を図っている。
さらに,ATINTERは複数のダウンストリームタスクや分類器にまたがって,これらの設定に対して明示的に再トレーニングすることなく一般化可能であることを示す。
具体的には、sst-2データセット上の感情分類タスクの敵意の摂動を取り除くように訓練された場合、意味的に異なるニュース分類タスク(agnews上で)に転送し、敵意の強固さを10%以上向上させる。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers [12.167426402230229]
既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
論文 参考訳(メタデータ) (2024-01-30T17:30:44Z) - Adversarial Attacks Neutralization via Data Set Randomization [3.655021726150369]
ディープラーニングモデルに対する敵対的な攻撃は、信頼性とセキュリティに深刻な脅威をもたらす。
本稿では,超空間射影に根ざした新しい防御機構を提案する。
提案手法は,敵対的攻撃に対するディープラーニングモデルの堅牢性を高めていることを示す。
論文 参考訳(メタデータ) (2023-06-21T10:17:55Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks [2.512827436728378]
ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-05-03T18:24:20Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Modelling Adversarial Noise for Adversarial Defense [96.56200586800219]
敵の防御は、通常、敵の音を除去したり、敵の頑強な目標モデルを訓練するために、敵の例を活用することに焦点を当てる。
逆データと自然データの関係は、逆データからクリーンデータを推測し、最終的な正しい予測を得るのに役立ちます。
本研究では, ラベル空間の遷移関係を学習するために, 逆方向の雑音をモデル化し, 逆方向の精度を向上させることを目的とした。
論文 参考訳(メタデータ) (2021-09-21T01:13:26Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。