論文の概要: An Empirical Investigation Towards Efficient Multi-Domain Language Model
Pre-training
- arxiv url: http://arxiv.org/abs/2010.00784v1
- Date: Thu, 1 Oct 2020 09:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:11:22.696495
- Title: An Empirical Investigation Towards Efficient Multi-Domain Language Model
Pre-training
- Title(参考訳): マルチドメイン言語モデル事前学習の効率化に向けた実証的研究
- Authors: Kristjan Arumae, Qing Sun, and Parminder Bhatia
- Abstract要約: 我々は破滅的忘れ(CF)を緩和するための既知の方法に関する実証的研究を行っている。
弾性重み統合は7つの一般的なタスクに対して0.33%の低下しか得られない,最高の総合スコアを提供する。
- 参考スコア(独自算出の注目度): 15.440627147018711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training large language models has become a standard in the natural
language processing community. Such models are pre-trained on generic data
(e.g. BookCorpus and English Wikipedia) and often fine-tuned on tasks in the
same domain. However, in order to achieve state-of-the-art performance on out
of domain tasks such as clinical named entity recognition and relation
extraction, additional in domain pre-training is required. In practice, staged
multi-domain pre-training presents performance deterioration in the form of
catastrophic forgetting (CF) when evaluated on a generic benchmark such as
GLUE. In this paper we conduct an empirical investigation into known methods to
mitigate CF. We find that elastic weight consolidation provides best overall
scores yielding only a 0.33% drop in performance across seven generic tasks
while remaining competitive in bio-medical tasks. Furthermore, we explore
gradient and latent clustering based data selection techniques to improve
coverage when using elastic weight consolidation and experience replay methods.
- Abstract(参考訳): 自然言語処理コミュニティでは,事前学習による大規模言語モデルが標準となっている。
このようなモデルは一般的なデータ(例えばブックコーパスやウィキペディア)で事前訓練され、しばしば同じドメインのタスクで微調整される。
しかし, 臨床名付きエンティティ認識や関係抽出などの領域外課題に対して, 最先端の性能を達成するためには, ドメイン事前訓練の実施が必要である。
実際には、ステージドマルチドメイン事前トレーニングは、GLUEのような一般的なベンチマークで評価すると、破滅的忘れ(CF)という形で性能劣化を示す。
本稿では,CFを緩和するための既知の手法に関する実証的研究を行う。
弾力性重みの強化は、7つの一般的なタスクでパフォーマンスが0.33%低下するだけでなく、バイオメディカルなタスクでも競争力が保たれます。
さらに,弾性重み強化法と経験再生法を用いて,勾配および潜時クラスタリングに基づくデータ選択手法について検討した。
関連論文リスト
- Generalization Capabilities of Neural Cellular Automata for Medical Image Segmentation: A Robust and Lightweight Approach [6.537479355990391]
U-Netは、トレーニング分布から逸脱したデータでテストすると、パフォーマンスが大幅に低下する。
本稿では,従来のU-Netに比べて3桁の規模(すなわちx1000)のモデルを活用することの意味について検討する。
論文 参考訳(メタデータ) (2024-08-28T06:18:55Z) - Self-Train Before You Transcribe [3.17829719401032]
本研究では,テスト時間適応手法として,テストセットの録音にうるさわしい教師の訓練を行うことの利点について検討する。
ドメイン内のデータセットとドメイン外のデータセットは、32.2%までの大きな相対的なゲインを示す実験に使用される。
論文 参考訳(メタデータ) (2024-06-17T09:21:00Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Test-Time Training for Semantic Segmentation with Output Contrastive
Loss [12.535720010867538]
ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、目に見えない環境にうまく一般化することは、依然として大きな課題である。
本稿では、適応過程を安定させるために、頑健で一般化された表現を学習する能力で知られるコントラストロス(OCL)を紹介する。
本手法は,テスト領域データに対するドメイン適応法を用いて事前学習したモデルに適用した場合においても優れ,そのレジリエンスと適応性を示す。
論文 参考訳(メタデータ) (2023-11-14T03:13:47Z) - Federated Meta-Learning for Few-Shot Fault Diagnosis with Representation
Encoding [21.76802204235636]
本稿では,数発の故障診断のための表現符号化ベースフェデレーションメタラーニング(REFML)を提案する。
REFMLは、トレーニングクライアントの固有の一般化を活用して、効果的に、アウト・オブ・ディストリビューションの利点に変換する。
同じ機器の非表示作業条件でテストすると2.17%-6.50%、全く見えない機器でテストすると13.44%-18.33%の精度で精度が向上する。
論文 参考訳(メタデータ) (2023-10-13T10:48:28Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。