論文の概要: TextGram: Towards a better domain-adaptive pretraining
- arxiv url: http://arxiv.org/abs/2404.18228v1
- Date: Sun, 28 Apr 2024 15:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:35:41.186430
- Title: TextGram: Towards a better domain-adaptive pretraining
- Title(参考訳): TextGram: ドメイン適応型事前トレーニングの改善を目指す
- Authors: Sharayu Hiwarkhedkar, Saloni Mittal, Vidula Magdum, Omkar Dhekane, Raviraj Joshi, Geetanjali Kale, Arnav Ladkat,
- Abstract要約: NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
- 参考スコア(独自算出の注目度): 0.3769303106863454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For green AI, it is crucial to measure and reduce the carbon footprint emitted during the training of large language models. In NLP, performing pre-training on Transformer models requires significant computational resources. This pre-training involves using a large amount of text data to gain prior knowledge for performing downstream tasks. Thus, it is important that we select the correct data in the form of domain-specific data from this vast corpus to achieve optimum results aligned with our domain-specific tasks. While training on large unsupervised data is expensive, it can be optimized by performing a data selection step before pretraining. Selecting important data reduces the space overhead and the substantial amount of time required to pre-train the model while maintaining constant accuracy. We investigate the existing selection strategies and propose our own domain-adaptive data selection method - TextGram - that effectively selects essential data from large corpora. We compare and evaluate the results of finetuned models for text classification task with and without data selection. We show that the proposed strategy works better compared to other selection methods.
- Abstract(参考訳): グリーンAIにとって、大規模な言語モデルのトレーニング中に放出される炭素フットプリントを測定し、削減することが不可欠である。
NLPでは、Transformerモデルで事前トレーニングを行うには、かなりの計算資源が必要である。
この事前トレーニングでは、大量のテキストデータを使用して、下流タスクを実行するための事前知識を得る。
したがって、この広大なコーパスからドメイン特化データの形で正しいデータを選択し、ドメイン特化タスクに沿った最適な結果を得ることが重要である。
教師なしの大きなデータのトレーニングは高価だが、事前トレーニング前にデータ選択のステップを実行することで最適化することができる。
重要なデータを選択することは、一定の精度を維持しながら、モデルの事前トレーニングに必要な空間オーバーヘッドとかなりの時間を削減する。
本研究では,既存の選択戦略を検証し,大規模コーパスから本質的なデータを効果的に選択するドメイン適応型データ選択手法であるTextGramを提案する。
テキスト分類タスクにおける微調整モデルの結果とデータ選択の有無を比較して評価する。
提案手法は,他の選択手法よりも有効であることを示す。
関連論文リスト
- Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Automatic Document Selection for Efficient Encoder Pretraining [31.941315346316465]
より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々はOntoNotes corpusをターゲットドメインとして扱い、Pileのシニカルに選択されたサブセットからRoBERTaライクなエンコーダを事前訓練する。
ターゲットドメイン内の複数のダウンストリームタスクの両方において、ランダム選択を一貫して20倍少ないデータ、3倍のトレーニングイテレーション、3倍のクラウド計算コストでパフォーマンスします。
論文 参考訳(メタデータ) (2022-10-20T01:45:02Z) - On the Complementarity of Data Selection and Fine Tuning for Domain
Adaptation [22.178874891042994]
ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整という3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して特定された事前訓練データに基づいて、さらにトレーニングすることで、ターゲットドメインの一般化を改善する。
論文 参考訳(メタデータ) (2021-09-15T21:49:06Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。