論文の概要: Pre-train or Annotate? Domain Adaptation with a Constrained Budget
- arxiv url: http://arxiv.org/abs/2109.04711v1
- Date: Fri, 10 Sep 2021 07:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:33:31.046895
- Title: Pre-train or Annotate? Domain Adaptation with a Constrained Budget
- Title(参考訳): プリトレインかアノテーションか?
制約付き予算によるドメイン適応
- Authors: Fan Bai, Alan Ritter and Wei Xu
- Abstract要約: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきだろうか?
3つの手続き的テキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定する。
小さな予算では、アノテーションにすべての資金を費やすことが、最高のパフォーマンスにつながります。
- 参考スコア(独自算出の注目度): 25.44621972274297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated that pre-training in-domain language models can
boost performance when adapting to a new domain. However, the costs associated
with pre-training raise an important question: given a fixed budget, what steps
should an NLP practitioner take to maximize performance? In this paper, we
study domain adaptation under budget constraints, and approach it as a customer
choice problem between data annotation and pre-training. Specifically, we
measure the annotation cost of three procedural text datasets and the
pre-training cost of three in-domain language models. Then we evaluate the
utility of different combinations of pre-training and data annotation under
varying budget constraints to assess which combination strategy works best. We
find that, for small budgets, spending all funds on annotation leads to the
best performance; once the budget becomes large enough, a combination of data
annotation and in-domain pre-training works more optimally. We therefore
suggest that task-specific data annotation should be part of an economical
strategy when adapting an NLP model to a new domain.
- Abstract(参考訳): 近年の研究では、ドメイン内言語モデルの事前トレーニングによって、新しいドメインへの適応時のパフォーマンス向上が示されている。
しかし、事前トレーニングに関連するコストは重要な疑問を提起する: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきか?
本稿では,予算制約の下でのドメイン適応について検討し,データアノテーションと事前学習の間の顧客選択問題としてアプローチする。
具体的には、3つの手続きテキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定した。
次に,様々な予算制約の下で,事前学習とデータアノテーションの異なる組み合わせの有用性を評価し,どの組み合わせが最善かを評価する。
予算が十分に大きくなると、データアノテーションとドメイン内事前トレーニングの組み合わせがより最適に機能します。
したがって、nlpモデルを新しいドメインに適用する場合、タスク固有のデータアノテーションは経済戦略の一部であるべきである。
関連論文リスト
- Specialized Language Models with Cheap Inference from Limited Domain
Data [26.641553493097252]
本研究は,事前訓練予算,特殊化予算,推論予算,ドメイン内トレーニングセットサイズという,4つの重要な変数を定式化する。
ハイパーネットワークと専門家の混在は、大規模な事前トレーニング予算においてより複雑であることを示し、重要なサンプルデータセットに基づいてトレーニングされた小さなモデルは、大規模な特殊化予算にとって魅力的なものである。
論文 参考訳(メタデータ) (2024-02-02T01:45:18Z) - $FastDoc$: Domain-Specific Fast Pre-training Technique using
Document-Level Metadata and Taxonomy [24.118143975658217]
$FastDoc$は計算要求を大幅に削減するために設計された新しいアプローチである。
文レベルの埋め込みを用いたオープンドメイントランスフォーマーエンコーダの継続的な事前トレーニングを含む。
$FastDoc$は、競合するアプローチと比較して、約1000倍、4,500倍、500倍の計算削減を実現している。
論文 参考訳(メタデータ) (2023-06-09T18:42:19Z) - Full or Weak annotations? An adaptive strategy for budget-constrained
annotation campaigns [3.1318537187387787]
セグメンテーションデータセットのアノテーション戦略を決定する新しい手法を提案する。
提案手法は, 分割と分類アノテーションの比率を連続的に決定し, 予算制約の収集を行う。
実験では、さまざまなアノテーション予算とデータセットに対して最適に非常に近いアノテーションが得られたことを示します。
論文 参考訳(メタデータ) (2023-03-21T08:41:54Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Practical Annotation Strategies for Question Answering Datasets [44.405498237885354]
そこで本研究では,ドメイン内および外部の両方のパフォーマンスを維持しつつ,アノテーションのコストを削減できるように,サブセットのアノテートのためのルールを開発する。
当社の作業は,予算のラベル付けが限定され,QAデータセットのアノテートに要する推奨がよりコスト効率良く必要となる場合に,現実的な要求を満たす。
論文 参考訳(メタデータ) (2020-03-06T14:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。