論文の概要: DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining
- arxiv url: http://arxiv.org/abs/2410.00260v2
- Date: Wed, 9 Oct 2024 17:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:46:17.060152
- Title: DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining
- Title(参考訳): DoPAMine: シード誘導データマイニングによるドメイン固有の事前トレーニング適応
- Authors: Vinayak Arannil, Neha Narwal, Sourav Sanjukta Bhabesh, Sai Nikhil Thirandas, Darren Yow-Bang Wang, Graham Horwood, Alex Anto Chirayath, Gouri Pandeshwar,
- Abstract要約: 大規模言語モデル(LLM)は、多くの業界領域で効果的に一般化する能力を示している。
LLMは、専門分野や低リソース産業領域での業務を行う際の制限を示す。
本研究では,シードガイドデータマイニングによるDoPAMine:Domain固有の事前トレーニング適応を提案する。
- 参考スコア(独自算出の注目度): 2.1534028009401713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable ability to generalize effectively across numerous industry domains while executing a range of tasks. Many of these competencies are obtained from the data utilized during the pre-training phase of the Language Models (LMs). However, these models exhibit limitations when tasked with performing in specialized or low-resource industry domains. More recent approaches use LLMs for generating domain-specific synthetic data but most often they lack in truthfulness and complexity. Alternatively, in cases where domain data is available like healthcare and finance most of the LMs are proprietary necessitating the need for a scalable method to curate real world industry specific pre-training data. In this work, we propose an automated and scalable framework - DoPAMine:Domain-specific Pre-training Adaptation from seed-guided data Mining, to mine domain specific training data from a large data corpus for domain adaptation of a LM. The framework leverages the parametric knowledge of a LLM to generate diverse and representative seed data tailored to a specific domain which is then used to mine real world data from a large data corpus like Common Crawl. We evaluated our framework's performance in the continual pre-training (CPT) setting by training two domain specific 7B parameter LMs in healthcare and finance with data mined via DoPAMine. Our experiments show that DoPAMine boosts the performance of pre-trained LLMs on average by 4.9% and 5.1% in zero-shot and 5-shot settings respectively on healthcare tasks from MMLU, MedQA, MedMCQA and PubMedQA datasets, and 2.9% and 6.7% for zero-shot and 5-shot settings respectively on finance tasks from FiQA-SA, FPB and Headlines datasets when compared to the baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクを実行しながら、多くの業界領域で効果的に一般化する能力を示す。
これらの能力の多くは、言語モデル(LM)の事前学習フェーズで使用されるデータから得られる。
しかし、これらのモデルは、専門または低リソースの業界ドメインでの実行をタスクする際の制限を示す。
近年のアプローチでは、LLMを使用してドメイン固有の合成データを生成するが、多くの場合、真性や複雑さに欠ける。
あるいは、医療やファイナンスのようなドメインデータが利用可能である場合、ほとんどのLMは、現実の業界固有の事前トレーニングデータをキュレートするためのスケーラブルな方法を必要とするプロプライエタリなものです。
本研究では,シード誘導データマイニングから,LMのドメイン適応のための大規模データコーパスから,ドメイン固有のトレーニングデータをマイニングするための,DoPAMine:Domain-specific Pre-training Adaptationを提案する。
このフレームワークは、LLMのパラメトリック知識を活用して、特定のドメインに適した多様で代表的なシードデータを生成し、Common Crawlのような大規模なデータコーパスから現実世界のデータをマイニングする。
本研究は,医療分野における2つのドメイン固有7BパラメータLMのトレーニングと,DoPAMineを用いたデータマイニングによるファイナンスにより,CPT(Continuousal pre-training)設定におけるフレームワークの性能を評価した。
本実験により, MMLU, MedQA, MedMCQA, PubMedQA の医療タスクでは, 平均4.9%, 5ショット設定では5.1%, FiQA-SA, FPB, Headlines の金融タスクでは2.9%, 5ショット設定では5ショット設定では2.7%, 5ショット設定では2.9%, 5ショット設定では5ショット設定では2.7%が向上した。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Task Oriented In-Domain Data Augmentation [38.525017729123114]
大規模言語モデル(LLM)は様々なアプリケーションや分野において優れた性能を示している。
法律や広告などの専門分野の性能向上のために、LLMはドメイン内のデータに基づいて事前訓練されることが多い。
タスク指向のドメイン内データ拡張フレームワークTRAITを提案する。
論文 参考訳(メタデータ) (2024-06-24T14:58:11Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - General LLMs as Instructors for Domain-Specific LLMs: A Sequential Fusion Method to Integrate Extraction and Editing [12.017822691367705]
複雑な文脈からの知識をLarge Language Models (LLM) に統合するための逐次融合法を提案する。
本手法を用いて,質問応答におけるドメイン固有LCMの精度は71.7%(平均39.1%)に達した。
これらの知見は、FDoR-ULにおけるアプローチの有効性と柔軟性を、様々な領域で示している。
論文 参考訳(メタデータ) (2024-03-23T06:03:36Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [148.90031913522648]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。
DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。
次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-05-17T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。