論文の概要: Improved Text Classification via Contrastive Adversarial Training
- arxiv url: http://arxiv.org/abs/2107.10137v1
- Date: Wed, 21 Jul 2021 15:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 16:41:27.006680
- Title: Improved Text Classification via Contrastive Adversarial Training
- Title(参考訳): コントラスト型adversarial trainingによるテキスト分類の改善
- Authors: Lin Pan, Chung-Wei Hang, Avirup Sil, Saloni Potdar, Mo Yu
- Abstract要約: 本稿では,テキスト分類タスクに対して,トランスフォーマーベースのエンコーダの微調整を規則化する,シンプルで汎用的な手法を提案する。
微調整中、モデルの単語埋め込みを摂動することで、敵の例を生成する。
クリーンな例で標準的な微調整よりも一貫した改善を観察する。
- 参考スコア(独自算出の注目度): 24.8408528253795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a simple and general method to regularize the fine-tuning of
Transformer-based encoders for text classification tasks. Specifically, during
fine-tuning we generate adversarial examples by perturbing the word embeddings
of the model and perform contrastive learning on clean and adversarial examples
in order to teach the model to learn noise-invariant representations. By
training on both clean and adversarial examples along with the additional
contrastive objective, we observe consistent improvement over standard
fine-tuning on clean examples. On several GLUE benchmark tasks, our fine-tuned
BERT Large model outperforms BERT Large baseline by 1.7% on average, and our
fine-tuned RoBERTa Large improves over RoBERTa Large baseline by 1.3%. We
additionally validate our method in different domains using three intent
classification datasets, where our fine-tuned RoBERTa Large outperforms RoBERTa
Large baseline by 1-2% on average.
- Abstract(参考訳): 本稿では,テキスト分類タスクのためのトランスコーダの微調整を簡易かつ汎用的に行う手法を提案する。
具体的には,ノイズ不変表現の学習をモデルに教えるために,モデルの単語埋め込みを摂動させ,クリーンな例と反対の例の対比学習を行うことで,その逆の例を生成する。
クリーンな例と逆向きな例を同時にトレーニングすることにより、クリーンな例の標準的な微調整よりも一貫した改善を観察する。
いくつかのGLUEベンチマークタスクでは、調整済みのBERT LargeモデルはBERT Largeベースラインを平均1.7%上回り、調整済みのRoBERTa LargeはRoBERTa Largeベースラインを1.3%上回る。
さらに3つの意図分類データセットを用いて,本手法を異なる領域で検証し,RoBERTa Largeの細調整によるベースライン平均1-2%の精度でRoBERTa Largeを性能良くする。
関連論文リスト
- In-Context Example Ordering Guided by Label Distributions [34.30216341226014]
最適化問題としてコンテキスト内注文を定式化する。
ラベルの比率から学習するという考えに触発され、モデルの確率予測によって導かれる文脈内サンプル注文の原則を2つ提案する。
提案手法は, 分類精度の向上, モデルの誤校正の低減, 文脈内事例の選択により, ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-18T04:08:10Z) - Breaking Free Transformer Models: Task-specific Context Attribution
Promises Improved Generalizability Without Fine-tuning Pre-trained LLMs [1.5138606851862884]
本稿では,一般化性を維持し,下流タスクの性能を向上させるフレームワークを提案する。
タスク固有の概念演算子を用いて任意の変換器モデルからテキスト表現を線形変換すると、潜在概念空間に投影されることを示す。
HateXplain,IMDB Review,Social Media Attributionsという3つのデータセットの実験結果から,提案モデルが精度と一般化性に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T00:23:29Z) - Using ChatGPT for Entity Matching [2.28438857884398]
本稿では,従来のトランスフォーマーモデルに代えて,より堅牢で訓練的なデータ効率の代替手段として,ChatGPTを用いたエンティティマッチングについて検討する。
本稿では,ChatGPTが微調整されたRoBERTaモデルと競合することを示す。
論文 参考訳(メタデータ) (2023-05-05T10:39:32Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier [61.063988689601416]
事前学習されたモデルは、クロスエントロピー損失によって最適化された線形分類器を用いて、微調整された下流タスクに広く利用されている。
これらの問題は、同じクラスの類似点と、予測を行う際の矛盾点に焦点を当てた表現を学習することで改善することができる。
本稿では、事前訓練されたモデル微調整タスクにおけるKNearest Neighborsについて紹介する。
論文 参考訳(メタデータ) (2021-10-06T06:17:05Z) - Insta-RS: Instance-wise Randomized Smoothing for Improved Robustness and
Accuracy [9.50143683501477]
Insta-RSは、テスト例にカスタマイズされたガウス分散を割り当てるマルチスタート検索アルゴリズムである。
Insta-RS Trainは、各トレーニング例のノイズレベルを適応的に調整し、カスタマイズする新しい2段階トレーニングアルゴリズムです。
本手法は,平均認定半径(ACR)とクリーンデータ精度を有意に向上させることを示した。
論文 参考訳(メタデータ) (2021-03-07T19:46:07Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。