論文の概要: The Effects of In-domain Corpus Size on pre-training BERT
- arxiv url: http://arxiv.org/abs/2212.07914v1
- Date: Thu, 15 Dec 2022 15:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:42:44.967753
- Title: The Effects of In-domain Corpus Size on pre-training BERT
- Title(参考訳): インドメインコーパスサイズがプレトレーニングBERTに及ぼす影響
- Authors: Chris Sanchez, Zheyuan Zhang
- Abstract要約: バイオメディカルコーパスの大きさの異なる変換器(BERT)による双方向表現の事前訓練を行った。
その結果、比較的少数のドメイン内データ(4GB)をトレーニング段階の制限で事前トレーニングすることで、下流ドメイン固有のNLPタスクのパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many prior language modeling efforts have shown that pre-training on an
in-domain corpus can significantly improve performance on downstream
domain-specific NLP tasks. However, the difficulties associated with collecting
enough in-domain data might discourage researchers from approaching this
pre-training task. In this paper, we conducted a series of experiments by
pre-training Bidirectional Encoder Representations from Transformers (BERT)
with different sizes of biomedical corpora. The results demonstrate that
pre-training on a relatively small amount of in-domain data (4GB) with limited
training steps, can lead to better performance on downstream domain-specific
NLP tasks compared with fine-tuning models pre-trained on general corpora.
- Abstract(参考訳): 多くの先行言語モデリングの取り組みは、ドメイン内コーパスでの事前トレーニングが、下流ドメイン固有のNLPタスクのパフォーマンスを大幅に向上させることを示した。
しかし、十分なドメイン内データ収集の困難さは、研究者がこの事前訓練作業に近づくことを妨げているかもしれない。
本稿では,バイオメディカルコーパスの大きさの異なる変換器(BERT)から双方向エンコーダ表現を事前学習する実験を行った。
その結果,比較的少数のドメイン内データ(4GB)をトレーニング段階の限定で事前学習することで,一般コーパスで事前学習した微調整モデルと比較して,下流領域固有のNLPタスクの性能が向上することが示された。
関連論文リスト
- Meta-TTT: A Meta-learning Minimax Framework For Test-Time Training [5.9631503543049895]
テスト時ドメイン適応は、推論中に制限された未ラベルのターゲットデータに事前訓練されたモデルを適用することを目的とした、困難なタスクである。
本稿では,バッチ正規化レイヤ上でのテスト時間トレーニングを行うためのメタラーニングミニマックスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:16:05Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文 参考訳(メタデータ) (2023-07-20T17:55:14Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Understanding Cross-Domain Few-Shot Learning: An Experimental Study [17.81177649496765]
ドメイン間数ショットの学習は、ソースとターゲットドメインの大きな違いを扱うために注目されている。
最近の研究は、事前訓練期間中に対象領域からの小規模な未ラベルデータを活用することを検討している。
このデータは、ソースドメインの教師付き事前トレーニングに加えて、ターゲットドメインでの自己教師付き事前トレーニングを可能にする。
論文 参考訳(メタデータ) (2022-02-01T12:35:25Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - An Empirical Investigation Towards Efficient Multi-Domain Language Model
Pre-training [15.440627147018711]
我々は破滅的忘れ(CF)を緩和するための既知の方法に関する実証的研究を行っている。
弾性重み統合は7つの一般的なタスクに対して0.33%の低下しか得られない,最高の総合スコアを提供する。
論文 参考訳(メタデータ) (2020-10-01T09:20:18Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。