論文の概要: SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks
- arxiv url: http://arxiv.org/abs/2403.18423v1
- Date: Wed, 27 Mar 2024 10:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:27:38.428728
- Title: SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks
- Title(参考訳): SemRoDe: 単語レベル攻撃に対するロバストな表現を学ぶためのマクロ逆行訓練
- Authors: Brian Formento, Wenjie Feng, Chuan Sheng Foo, Luu Anh Tuan, See-Kiong Ng,
- Abstract要約: 本稿では,セマンティック・ロバスト・ディフェンス(Semantic Robust Defence, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス)
この2つの領域を橋渡しする頑健な表現を学習する。
結果は、最先端の堅牢性を示す。
- 参考スコア(独自算出の注目度): 29.942001958562567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are indispensable tools for natural language processing tasks, but their vulnerability to adversarial attacks remains a concern. While current research has explored adversarial training techniques, their improvements to defend against word-level attacks have been limited. In this work, we propose a novel approach called Semantic Robust Defence (SemRoDe), a Macro Adversarial Training strategy to enhance the robustness of LMs. Drawing inspiration from recent studies in the image domain, we investigate and later confirm that in a discrete data setting such as language, adversarial samples generated via word substitutions do indeed belong to an adversarial domain exhibiting a high Wasserstein distance from the base domain. Our method learns a robust representation that bridges these two domains. We hypothesize that if samples were not projected into an adversarial domain, but instead to a domain with minimal shift, it would improve attack robustness. We align the domains by incorporating a new distance-based objective. With this, our model is able to learn more generalized representations by aligning the model's high-level output features and therefore better handling unseen adversarial samples. This method can be generalized across word embeddings, even when they share minimal overlap at both vocabulary and word-substitution levels. To evaluate the effectiveness of our approach, we conduct experiments on BERT and RoBERTa models on three datasets. The results demonstrate promising state-of-the-art robustness.
- Abstract(参考訳): 自然言語処理タスクには言語モデル(LM)が不可欠だが、敵攻撃に対する脆弱性は依然として懸念されている。
現在の研究では、敵の訓練技術について検討されているが、単語レベルの攻撃に対する防御の改善は限られている。
本研究では,LMの堅牢性を高めるためのマクロ・アドバーサリアル・トレーニング戦略であるセマンティック・ロバスト・ディフェンス (セマンティック・ロバスト・ディフェンス (セマンティック・ロバスト・ディフェンス) を提案する。
画像領域における最近の研究からインスピレーションを得て,言語などの離散的なデータ設定において,単語置換によって生成された逆数サンプルは,ベース領域から高いワッサーシュタイン距離を示す逆数ドメインに属することが確認された。
この2つの領域を橋渡しする頑健な表現を学習する。
サンプルが敵ドメインに投影されず、代わりに最小シフトのドメインに投影されると、攻撃の堅牢性が向上する、という仮説を立てる。
距離に基づく新たな目的を取り入れることで、ドメインを整合させる。
これにより,モデルの高次出力特性を整列させることで,より一般化された表現を学習することができる。
この方法は、語彙と単語置換の両レベルで最小の重複を共有する場合でも、単語埋め込みにまたがって一般化することができる。
提案手法の有効性を評価するため,3つのデータセット上でBERTモデルとRoBERTaモデルを用いて実験を行った。
結果は、最先端の堅牢性を示す。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。
具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。
実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文 参考訳(メタデータ) (2023-09-16T14:04:23Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations [11.93653349589025]
逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-29T02:32:02Z) - Robust Textual Embedding against Word-level Adversarial Attacks [15.235449552083043]
我々は、FTML(Fast Triplet Metric Learning)と呼ばれる新しい堅牢なトレーニング手法を提案する。
FTMLは, 様々な先進攻撃に対して, モデルロバスト性を著しく向上させることができることを示す。
我々の研究は、ロバストな単語埋め込みによってテキストの堅牢性を改善する大きな可能性を示している。
論文 参考訳(メタデータ) (2022-02-28T14:25:00Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Towards Robustness Against Natural Language Word Substitutions [87.56898475512703]
単語置換に対するロバスト性は、意味論的に類似した単語を置換として、明確に定義され広く受け入れられる形式である。
従来の防衛方法は、$l$-ball または hyper-rectangle を用いてベクトル空間における単語置換をキャプチャする。
論文 参考訳(メタデータ) (2021-07-28T17:55:08Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。