Fugu-MT 論文翻訳(概要): Pre-train or Annotate? Domain Adaptation with a Constrained Budget

論文の概要: Pre-train or Annotate? Domain Adaptation with a Constrained Budget

arxiv url: http://arxiv.org/abs/2109.04711v1
Date: Fri, 10 Sep 2021 07:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-13 13:33:31.046895
Title: Pre-train or Annotate? Domain Adaptation with a Constrained Budget
Title（参考訳）: プリトレインかアノテーションか? 制約付き予算によるドメイン適応
Authors: Fan Bai, Alan Ritter and Wei Xu
Abstract要約: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきだろうか? 3つの手続き的テキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定する。小さな予算では、アノテーションにすべての資金を費やすことが、最高のパフォーマンスにつながります。
参考スコア（独自算出の注目度）: 25.44621972274297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has demonstrated that pre-training in-domain language models can boost performance when adapting to a new domain. However, the costs associated with pre-training raise an important question: given a fixed budget, what steps should an NLP practitioner take to maximize performance? In this paper, we study domain adaptation under budget constraints, and approach it as a customer choice problem between data annotation and pre-training. Specifically, we measure the annotation cost of three procedural text datasets and the pre-training cost of three in-domain language models. Then we evaluate the utility of different combinations of pre-training and data annotation under varying budget constraints to assess which combination strategy works best. We find that, for small budgets, spending all funds on annotation leads to the best performance; once the budget becomes large enough, a combination of data annotation and in-domain pre-training works more optimally. We therefore suggest that task-specific data annotation should be part of an economical strategy when adapting an NLP model to a new domain.
Abstract（参考訳）: 近年の研究では、ドメイン内言語モデルの事前トレーニングによって、新しいドメインへの適応時のパフォーマンス向上が示されている。しかし、事前トレーニングに関連するコストは重要な疑問を提起する: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきか? 本稿では,予算制約の下でのドメイン適応について検討し,データアノテーションと事前学習の間の顧客選択問題としてアプローチする。具体的には、3つの手続きテキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定した。次に,様々な予算制約の下で,事前学習とデータアノテーションの異なる組み合わせの有用性を評価し,どの組み合わせが最善かを評価する。予算が十分に大きくなると、データアノテーションとドメイン内事前トレーニングの組み合わせがより最適に機能します。したがって、nlpモデルを新しいドメインに適用する場合、タスク固有のデータアノテーションは経済戦略の一部であるべきである。

関連論文リスト

Stepsize anything: A unified learning rate schedule for budgeted-iteration training [43.52874155421866]
予算設定訓練は、所定の予算内で最適な学習を実現することを目的としている。学習率のスケジュールは異なるネットワークやタスクのパフォーマンスを左右するが、その設計は理論的な基礎をほとんど欠いている。本稿では,Unified Budget-Aware (UBA) スケジュールを提案する。
論文参考訳（メタデータ） (2025-05-30T10:38:03Z)
Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文参考訳（メタデータ） (2025-02-16T21:57:35Z)
Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文参考訳（メタデータ） (2024-10-21T17:11:21Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
In-Context Learning on a Budget: A Case Study in Token Classification [16.664472010838132]
事前定義された予算内でアノテートするサンプルを選択するための様々な方法について検討する。我々は,どの手法も他の手法よりも著しく優れており,ほぼ同様の結果が得られることを観察した。比較的小さなアノテートされたサンプルプールは、トレーニングセット全体の使用に匹敵するパフォーマンスを達成できることを実証する。
論文参考訳（メタデータ） (2024-06-19T07:09:46Z)
Metalearners for Ranking Treatment Effects [1.469168639465869]
政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
論文参考訳（メタデータ） (2024-05-03T15:31:18Z)
On the Necessity of Collaboration for Online Model Selection with Decentralized Data [53.244188985271606]
我々は,100万ドル以上の分散データを用いたオンラインモデル選択について検討し,クライアント間のコラボレーションの必要性について検討する。 i) クライアント上の計算コストが$o(K)$に制限された場合, (ii) クライアント上での計算制約がない場合, (i) 協調は不要であり, (ii) クライアント上での計算コストは$o(K)$に制限される。
論文参考訳（メタデータ） (2024-04-15T06:32:28Z)
How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文参考訳（メタデータ） (2024-04-04T13:55:06Z)
Full or Weak annotations? An adaptive strategy for budget-constrained annotation campaigns [3.1318537187387787]
セグメンテーションデータセットのアノテーション戦略を決定する新しい手法を提案する。提案手法は, 分割と分類アノテーションの比率を連続的に決定し, 予算制約の収集を行う。実験では、さまざまなアノテーション予算とデータセットに対して最適に非常に近いアノテーションが得られたことを示します。
論文参考訳（メタデータ） (2023-03-21T08:41:54Z)
The Power and Limitation of Pretraining-Finetuning for Linear Regression under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文参考訳（メタデータ） (2022-08-03T05:59:49Z)
How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文参考訳（メタデータ） (2021-03-15T15:38:47Z)
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-04-23T04:21:19Z)
Practical Annotation Strategies for Question Answering Datasets [44.405498237885354]
そこで本研究では,ドメイン内および外部の両方のパフォーマンスを維持しつつ,アノテーションのコストを削減できるように,サブセットのアノテートのためのルールを開発する。当社の作業は,予算のラベル付けが限定され,QAデータセットのアノテートに要する推奨がよりコスト効率良く必要となる場合に,現実的な要求を満たす。
論文参考訳（メタデータ） (2020-03-06T14:25:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。