論文の概要: Adversarial Text Normalization
- arxiv url: http://arxiv.org/abs/2206.04137v1
- Date: Wed, 8 Jun 2022 19:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 05:58:41.908529
- Title: Adversarial Text Normalization
- Title(参考訳): 逆テキスト正規化
- Authors: Joanna Bitton and Maya Pavlova and Ivan Evtimov
- Abstract要約: 逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
- 参考スコア(独自算出の注目度): 2.9434930072968584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based adversarial attacks are becoming more commonplace and accessible
to general internet users. As these attacks proliferate, the need to address
the gap in model robustness becomes imminent. While retraining on adversarial
data may increase performance, there remains an additional class of
character-level attacks on which these models falter. Additionally, the process
to retrain a model is time and resource intensive, creating a need for a
lightweight, reusable defense. In this work, we propose the Adversarial Text
Normalizer, a novel method that restores baseline performance on attacked
content with low computational overhead. We evaluate the efficacy of the
normalizer on two problem areas prone to adversarial attacks, i.e. Hate Speech
and Natural Language Inference. We find that text normalization provides a
task-agnostic defense against character-level attacks that can be implemented
supplementary to adversarial retraining solutions, which are more suited for
semantic alterations.
- Abstract(参考訳): テキストベースの敵攻撃は、一般的なインターネットユーザーにとってより一般的でアクセスしやすいものになりつつある。
これらの攻撃が増加するにつれて、モデルロバストネスのギャップに対処する必要がある。
敵データの再トレーニングはパフォーマンスを高める可能性があるが、これらのモデルが失敗するキャラクターレベルの攻撃には追加のクラスが存在する。
さらに、モデルを再トレーニングするプロセスは時間とリソース集約であり、軽量で再利用可能な防御の必要性を生み出します。
本研究では,攻撃されたコンテンツのベースライン性能を低い計算オーバーヘッドで復元する手法であるAdversarial Text Normalizerを提案する。
本研究は,Hate SpeechとNatural Language Inferenceの2つの問題領域における正規化器の有効性を評価する。
テキストの正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供し、意味的な変更にもっと適した敵のリトレーニングソリューションに補完的に実装できることが分かりました。
関連論文リスト
- GenFighter: A Generative and Evolutive Textual Attack Removal [6.044610337297754]
自然言語処理(NLP)におけるTransformerモデルのような、ディープニューラルネットワーク(DNN)に対するアドリラルアタックは大きな課題となる。
本稿では,訓練分類分布の学習と推論によって敵の堅牢性を高める新しい防衛戦略であるGenFighterを紹介する。
我々は、GenFighterが攻撃および攻撃成功率の指標の下で、最先端の防御能力より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-17T16:32:13Z) - Don't be a Fool: Pooling Strategies in Offensive Language Detection from User-Intended Adversarial Attacks [7.480124826347168]
悪意のあるユーザは、しばしばテキストノイズを伴ってフィルタリングシステムを避けようとする。
本稿では, 特別なシンボルを挿入したり, 韓国語の特徴を利用するユーザ意図の敵攻撃として, これらの回避策を提案する。
提案する攻撃に対する防御策として,単純かつ効果的なプール戦略をレイヤワイズで導入する。
論文 参考訳(メタデータ) (2024-03-20T06:28:09Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Preserving Semantics in Textual Adversarial Attacks [0.0]
敵の攻撃によって生じる敵の事例の最大70%は、意味論を保存していないため破棄されるべきである。
SPE(Semantics-Preserving-Encoder)と呼ばれる新しい完全教師付き文埋め込み手法を提案する。
本手法は, 敵攻撃における既存の文エンコーダよりも1.2倍から5.1倍優れた実攻撃成功率を達成している。
論文 参考訳(メタデータ) (2022-11-08T12:40:07Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。