論文の概要: Supervised Contrastive Learning for Pre-trained Language Model
Fine-tuning
- arxiv url: http://arxiv.org/abs/2011.01403v3
- Date: Fri, 2 Apr 2021 20:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:50:27.284903
- Title: Supervised Contrastive Learning for Pre-trained Language Model
Fine-tuning
- Title(参考訳): 事前学習型言語モデルファインチューニングのための教師付きコントラスト学習
- Authors: Beliz Gunel, Jingfei Du, Alexis Conneau, Ves Stoyanov
- Abstract要約: 最先端の自然言語理解分類モデルは2段階に従う。
微調整段階に対する教師付きコントラスト学習(SCL)の目的を提案する。
提案した微調整目的は、微調整訓練データにおいて、異なるレベルのノイズに対してより堅牢なモデルに導かれる。
- 参考スコア(独自算出の注目度): 23.00300794016583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art natural language understanding classification models follow
two-stages: pre-training a large language model on an auxiliary task, and then
fine-tuning the model on a task-specific labeled dataset using cross-entropy
loss. However, the cross-entropy loss has several shortcomings that can lead to
sub-optimal generalization and instability. Driven by the intuition that good
generalization requires capturing the similarity between examples in one class
and contrasting them with examples in other classes, we propose a supervised
contrastive learning (SCL) objective for the fine-tuning stage. Combined with
cross-entropy, our proposed SCL loss obtains significant improvements over a
strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in
few-shot learning settings, without requiring specialized architecture, data
augmentations, memory banks, or additional unsupervised data. Our proposed
fine-tuning objective leads to models that are more robust to different levels
of noise in the fine-tuning training data, and can generalize better to related
tasks with limited labeled data.
- Abstract(参考訳): 最先端の自然言語理解分類モデルは、補助的なタスクで大きな言語モデルを事前訓練した後、クロスエントロピー損失を使用してタスク固有のラベル付きデータセット上でモデルを微調整する。
しかし、クロスエントロピー損失にはいくつかの欠点があり、それが準最適一般化と不安定をもたらす。
良質な一般化には一つのクラスにおける例の類似性を捉えて、他のクラスの例と対比する必要があるという直観性から、微調整段階における教師付きコントラスト学習(scl)の目的を提案する。
クロスエントロピーと組み合わせることで,提案するscl損失は,特殊なアーキテクチャやデータ拡張,メモリバンク,教師なしデータなどの必要を伴わずに,glueベンチマークの複数のデータセット上で強力なroberta-largeベースラインよりも大幅に改善される。
提案した微調整目的は、微調整訓練データにおいて、異なるレベルのノイズに対してより堅牢で、ラベル付きデータに制限された関連するタスクをより一般化できるモデルにつながる。
関連論文リスト
- Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - ScatSimCLR: self-supervised contrastive learning with pretext task
regularization for small-scale datasets [5.2424255020469595]
データの複数ビュー間の対照的な損失に基づく小規模データセットに対する自己教師型学習の課題について考察する。
同じ分類精度を維持しつつ,システム全体のパラメータ数やビュー数を大幅に削減できると主張している。
論文 参考訳(メタデータ) (2021-08-31T15:58:45Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。