論文の概要: Cost-effective Selection of Pretraining Data: A Case Study of
Pretraining BERT on Social Media
- arxiv url: http://arxiv.org/abs/2010.01150v1
- Date: Fri, 2 Oct 2020 18:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:32:30.849206
- Title: Cost-effective Selection of Pretraining Data: A Case Study of
Pretraining BERT on Social Media
- Title(参考訳): 事前学習データの費用対効果の選択:ソーシャルメディア上でのBERTの事前学習を事例として
- Authors: Xiang Dai and Sarvnaz Karimi and Ben Hachey and Cecile Paris
- Abstract要約: 領域固有のBERTモデルに関する最近の研究は、ドメイン内データ上でモデルが事前訓練された場合、下流タスクの有効性を向上させることができることを示している。
ツイートとフォーラムのテキストにそれぞれ2つのモデルを事前学習し、これらの2つのリソースの有効性を実証的に示す。
さらに,ドメイン内事前学習データに類似度を付与する方法について検討する。
- 参考スコア(独自算出の注目度): 18.21146856681127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on domain-specific BERT models show that effectiveness on
downstream tasks can be improved when models are pretrained on in-domain data.
Often, the pretraining data used in these models are selected based on their
subject matter, e.g., biology or computer science. Given the range of
applications using social media text, and its unique language variety, we
pretrain two models on tweets and forum text respectively, and empirically
demonstrate the effectiveness of these two resources. In addition, we
investigate how similarity measures can be used to nominate in-domain
pretraining data. We publicly release our pretrained models at
https://bit.ly/35RpTf0.
- Abstract(参考訳): 領域固有のBERTモデルに関する最近の研究は、ドメイン内データ上でモデルが事前訓練された場合、下流タスクの有効性を向上させることができることを示している。
これらのモデルで使用される事前学習データは、生物学やコンピュータ科学などの主題に基づいて選択されることが多い。
ソーシャルメディアテキストの利用範囲と言語の種類を考慮し、それぞれツイートとフォーラムテキストで2つのモデルを事前学習し、これらの2つのリソースの有効性を実証的に示す。
さらに,ドメイン内事前学習データに対する類似度尺度の適用方法について検討する。
トレーニング済みのモデルをhttps://bit.ly/35rptf0で公開しています。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Data Augmentation using Pre-trained Transformer Models [2.105564340986074]
本研究では, 自動回帰モデル (GPT-2) や自動エンコーダモデル (BERT) , セック2seqモデル (BART) といった, 条件付きデータ拡張のためのトランスフォーマーベース事前学習モデルについて検討する。
クラスラベルをテキストシーケンスにプリコンパイルすることは、データ拡張のために事前訓練されたモデルを条件付けするための、シンプルで効果的な方法であることを示す。
論文 参考訳(メタデータ) (2020-03-04T18:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。