論文の概要: Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2210.14957v1
- Date: Wed, 26 Oct 2022 18:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:51:49.368440
- Title: Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness
- Title(参考訳): 対向ロバスト性に対する情報理論的視点を用いた遠方的テキスト表現学習
- Authors: Jiahao Zhao, Wenji Mao
- Abstract要約: 敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
- 参考スコア(独自算出の注目度): 17.5771010094384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial vulnerability remains a major obstacle to constructing reliable
NLP systems. When imperceptible perturbations are added to raw input text, the
performance of a deep learning model may drop dramatically under attacks.
Recent work argues the adversarial vulnerability of the model is caused by the
non-robust features in supervised training. Thus in this paper, we tackle the
adversarial robustness challenge from the view of disentangled representation
learning, which is able to explicitly disentangle robust and non-robust
features in text. Specifically, inspired by the variation of information (VI)
in information theory, we derive a disentangled learning objective composed of
mutual information to represent both the semantic representativeness of latent
embeddings and differentiation of robust and non-robust features. On the basis
of this, we design a disentangled learning network to estimate these mutual
information. Experiments on text classification and entailment tasks show that
our method significantly outperforms the representative methods under
adversarial attacks, indicating that discarding non-robust features is critical
for improving adversarial robustness.
- Abstract(参考訳): 敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
生の入力テキストに知覚不能な摂動を加えると、深層学習モデルの性能は攻撃によって劇的に低下する可能性がある。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
そこで本稿では, テキスト中の頑健性や非破壊性を明示的に解き明かすことのできる, アンタングル型表現学習の観点から, 対角的頑健性に挑戦する。
具体的には,情報理論における情報(VI)の変化にインスパイアされた,潜伏埋め込みの意味的表現と頑健な特徴と非破壊的な特徴の区別の両方を表現するために,相互情報からなる非絡み合い学習目標を導出する。
そこで我々は,これらの相互情報を推定するために,絡み合った学習ネットワークを設計する。
テキスト分類とエンターテイメントタスクの実験から,本手法は敵攻撃時の代表手法を著しく上回り,非破壊的特徴の破棄が敵の強靭性向上に不可欠であることが示唆された。
関連論文リスト
- Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。
本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文 参考訳(メタデータ) (2024-10-11T03:59:49Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual
Robustness [56.263482420177915]
我々は,既存のシステムの忠実さを,事実的堅牢性という新たな視点から研究する。
本研究では,新たなトレーニング戦略,すなわちFRSUMを提案し,そのモデルに対して,暗黙の対角的サンプルと暗黙の対向的摂動の両方を防御するように指導する。
論文 参考訳(メタデータ) (2022-11-01T06:09:00Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Evaluating Deception Detection Model Robustness To Linguistic Variation [10.131671217810581]
認知ニュース検出の設定における言語的変化に対するモデル堅牢性の解析を提案する。
2つの予測タスクを検討し,3つの最先端組込みを比較して,モデル性能の一貫した傾向を強調する。
キャラクタあるいは混合アンサンブルモデルが最も効果的な防御であり,キャラクタ摂動に基づく攻撃戦術がより成功していることがわかった。
論文 参考訳(メタデータ) (2021-04-23T17:25:38Z) - Improving adversarial robustness of deep neural networks by using
semantic information [17.887586209038968]
対人訓練は、敵の堅牢性を改善するための主要な方法であり、対人攻撃に対する第一線である。
本稿では,ネットワーク全体から,あるクラスに対応する決定境界に近い領域の重要部分に焦点を移す,対向ロバスト性の問題に対する新たな視点を提供する。
MNISTとCIFAR-10データセットの実験的結果は、この手法がトレーニングデータから非常に小さなデータセットを使用しても、敵の堅牢性を大幅に向上することを示している。
論文 参考訳(メタデータ) (2020-08-18T10:23:57Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Learning Adversarially Robust Representations via Worst-Case Mutual
Information Maximization [15.087280646796527]
敵の入力に対して堅牢な機械学習モデルを訓練することは、一見不可能な課題である。
我々は,入力分布と出力分布の相互情報の最大変化をキャプチャする表現脆弱性の概念を開発する。
最悪ケースの相互情報を最大化することにより,本質的に堅牢な表現を得るための教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2020-02-26T21:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。