論文の概要: Pre-train or Annotate? Domain Adaptation with a Constrained Budget
- arxiv url: http://arxiv.org/abs/2109.04711v1
- Date: Fri, 10 Sep 2021 07:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:33:31.046895
- Title: Pre-train or Annotate? Domain Adaptation with a Constrained Budget
- Title(参考訳): プリトレインかアノテーションか?
制約付き予算によるドメイン適応
- Authors: Fan Bai, Alan Ritter and Wei Xu
- Abstract要約: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきだろうか?
3つの手続き的テキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定する。
小さな予算では、アノテーションにすべての資金を費やすことが、最高のパフォーマンスにつながります。
- 参考スコア(独自算出の注目度): 25.44621972274297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated that pre-training in-domain language models can
boost performance when adapting to a new domain. However, the costs associated
with pre-training raise an important question: given a fixed budget, what steps
should an NLP practitioner take to maximize performance? In this paper, we
study domain adaptation under budget constraints, and approach it as a customer
choice problem between data annotation and pre-training. Specifically, we
measure the annotation cost of three procedural text datasets and the
pre-training cost of three in-domain language models. Then we evaluate the
utility of different combinations of pre-training and data annotation under
varying budget constraints to assess which combination strategy works best. We
find that, for small budgets, spending all funds on annotation leads to the
best performance; once the budget becomes large enough, a combination of data
annotation and in-domain pre-training works more optimally. We therefore
suggest that task-specific data annotation should be part of an economical
strategy when adapting an NLP model to a new domain.
- Abstract(参考訳): 近年の研究では、ドメイン内言語モデルの事前トレーニングによって、新しいドメインへの適応時のパフォーマンス向上が示されている。
しかし、事前トレーニングに関連するコストは重要な疑問を提起する: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきか?
本稿では,予算制約の下でのドメイン適応について検討し,データアノテーションと事前学習の間の顧客選択問題としてアプローチする。
具体的には、3つの手続きテキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定した。
次に,様々な予算制約の下で,事前学習とデータアノテーションの異なる組み合わせの有用性を評価し,どの組み合わせが最善かを評価する。
予算が十分に大きくなると、データアノテーションとドメイン内事前トレーニングの組み合わせがより最適に機能します。
したがって、nlpモデルを新しいドメインに適用する場合、タスク固有のデータアノテーションは経済戦略の一部であるべきである。
関連論文リスト
- Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Metalearners for Ranking Treatment Effects [1.469168639465869]
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T15:31:18Z) - On the Necessity of Collaboration for Online Model Selection with Decentralized Data [53.244188985271606]
我々は,100万ドル以上の分散データを用いたオンラインモデル選択について検討し,クライアント間のコラボレーションの必要性について検討する。
i) クライアント上の計算コストが$o(K)$に制限された場合, (ii) クライアント上での計算制約がない場合, (i) 協調は不要であり, (ii) クライアント上での計算コストは$o(K)$に制限される。
論文 参考訳(メタデータ) (2024-04-15T06:32:28Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Full or Weak annotations? An adaptive strategy for budget-constrained
annotation campaigns [3.1318537187387787]
セグメンテーションデータセットのアノテーション戦略を決定する新しい手法を提案する。
提案手法は, 分割と分類アノテーションの比率を連続的に決定し, 予算制約の収集を行う。
実験では、さまざまなアノテーション予算とデータセットに対して最適に非常に近いアノテーションが得られたことを示します。
論文 参考訳(メタデータ) (2023-03-21T08:41:54Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Practical Annotation Strategies for Question Answering Datasets [44.405498237885354]
そこで本研究では,ドメイン内および外部の両方のパフォーマンスを維持しつつ,アノテーションのコストを削減できるように,サブセットのアノテートのためのルールを開発する。
当社の作業は,予算のラベル付けが限定され,QAデータセットのアノテートに要する推奨がよりコスト効率良く必要となる場合に,現実的な要求を満たす。
論文 参考訳(メタデータ) (2020-03-06T14:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。