論文の概要: InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2010.02329v4
- Date: Mon, 22 Mar 2021 11:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:45:59.404079
- Title: InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective
- Title(参考訳): infobert: 情報理論の観点から見た言語モデルのロバスト性向上
- Authors: Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li,
Jingjing Liu
- Abstract要約: BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
- 参考スコア(独自算出の注目度): 84.78604733927887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language models such as BERT have achieved state-of-the-art
performance across a wide range of NLP tasks. Recent studies, however, show
that such BERT-based models are vulnerable facing the threats of textual
adversarial attacks. We aim to address this problem from an
information-theoretic perspective, and propose InfoBERT, a novel learning
framework for robust fine-tuning of pre-trained language models. InfoBERT
contains two mutual-information-based regularizers for model training: (i) an
Information Bottleneck regularizer, which suppresses noisy mutual information
between the input and the feature representation; and (ii) a Robust Feature
regularizer, which increases the mutual information between local robust
features and global features. We provide a principled way to theoretically
analyze and improve the robustness of representation learning for language
models in both standard and adversarial training. Extensive experiments
demonstrate that InfoBERT achieves state-of-the-art robust accuracy over
several adversarial datasets on Natural Language Inference (NLI) and Question
Answering (QA) tasks. Our code is available at
https://github.com/AI-secure/InfoBERT.
- Abstract(参考訳): BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを達成した。
しかし、最近の研究では、このようなBERTベースのモデルは、テキストの敵対的攻撃の脅威に直面している。
我々は,情報理論的な観点からこの問題に対処し,事前学習された言語モデルのロバストな微調整のための新しい学習フレームワークinfobertを提案する。
InfoBERTは、モデルトレーニングのための2つの相互情報ベースの正規化器を含んでいる。
(i)入力と特徴表現との間の騒がしい相互情報を抑制する情報ボトルネック調整装置
(II)ロバスト特徴正規化器は局所的ロバスト特徴とグローバル特徴との相互情報を増加させる。
本研究では,言語モデルにおける表現学習の頑健さを理論的に分析・改善する原理的手法を提案する。
包括的実験により、InfoBERTは自然言語推論(NLI)および質問回答(QA)タスクに関するいくつかの敵対的データセットに対して、最先端の堅牢な精度を達成する。
私たちのコードはhttps://github.com/AI-Secure/InfoBERT.comで利用可能です。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。