論文の概要: To BERT or Not to BERT: Comparing Task-specific and Task-agnostic
Semi-Supervised Approaches for Sequence Tagging
- arxiv url: http://arxiv.org/abs/2010.14042v1
- Date: Tue, 27 Oct 2020 04:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:57:51.243851
- Title: To BERT or Not to BERT: Comparing Task-specific and Task-agnostic
Semi-Supervised Approaches for Sequence Tagging
- Title(参考訳): BERT から BERT へ: シーケンスタギングにおけるタスク固有およびタスク非依存の半監督アプローチの比較
- Authors: Kasturi Bhattacharjee, Miguel Ballesteros, Rishita Anubhai, Smaranda
Muresan, Jie Ma, Faisal Ladhak, Yaser Al-Onaizan
- Abstract要約: クロスビュートレーニング(CVT)とタスクに依存しないBERTをドメインやタスクに関連する英語データを含む複数の設定で比較する。
本研究では,一連のタグ付けタスクにおいてBERTと同じような性能を達成し,経済的・環境的影響を低減できることを示す。
- 参考スコア(独自算出の注目度): 46.62643525729018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging large amounts of unlabeled data using Transformer-like
architectures, like BERT, has gained popularity in recent times owing to their
effectiveness in learning general representations that can then be further
fine-tuned for downstream tasks to much success. However, training these models
can be costly both from an economic and environmental standpoint. In this work,
we investigate how to effectively use unlabeled data: by exploring the
task-specific semi-supervised approach, Cross-View Training (CVT) and comparing
it with task-agnostic BERT in multiple settings that include domain and task
relevant English data. CVT uses a much lighter model architecture and we show
that it achieves similar performance to BERT on a set of sequence tagging
tasks, with lesser financial and environmental impact.
- Abstract(参考訳): BERTのようなTransformerライクなアーキテクチャを使って大量の未ラベルデータを活用することは、下流タスクのためにさらに微調整できる汎用表現の学習における有効性から、近年人気を集めている。
しかし、これらのモデルの訓練は、経済と環境の両方の観点から費用がかかる可能性がある。
本研究では、タスク固有の半教師付きアプローチであるクロスビュートレーニング(CVT)を探索し、ドメインやタスクに関連する英語データを含む複数の設定でタスクに依存しないBERTと比較することにより、ラベル付きデータを効果的に活用する方法を検討する。
CVTはより軽量なモデルアーキテクチャを用いており、一連のシーケンスタギングタスクにおいてBERTと同じような性能を達成でき、財務・環境への影響も少ないことを示す。
関連論文リスト
- A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - STraTA: Self-Training with Task Augmentation for Better Few-shot
Learning [77.04780470527432]
タスク拡張による自己学習のためのSTraTAを提案する。
実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。
分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
論文 参考訳(メタデータ) (2021-09-13T19:14:01Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Hierarchical Multitask Learning Approach for BERT [0.36525095710982913]
BERTは、マスク付き言語モデル(masked LM)と次の文予測(NSP)である2つのタスクを解くことで埋め込みを学習する
BERT事前学習には階層型マルチタスク学習アプローチを採用する。
この結果から,タスク階層を事前学習に組み込むことで,組込み性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-10-17T09:23:04Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - An Unsupervised Sentence Embedding Method by Mutual Information
Maximization [34.947950543830686]
SBERT(Sentence BERT)はクラスタリングやセマンティックサーチのような文対タスクでは非効率である。
本稿では,BERT上での軽量な拡張と,新たな自己教師型学習目標を提案する。
我々の方法は、異なるドメイン固有のコーパスに適用できるようなラベル付きデータの可用性に制限されない。
論文 参考訳(メタデータ) (2020-09-25T07:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。