論文の概要: $FastDoc$: Domain-Specific Fast Continual Pre-training Technique using Document-Level Metadata and Taxonomy
- arxiv url: http://arxiv.org/abs/2306.06190v3
- Date: Fri, 01 Nov 2024 07:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:18.114861
- Title: $FastDoc$: Domain-Specific Fast Continual Pre-training Technique using Document-Level Metadata and Taxonomy
- Title(参考訳): $FastDoc$: ドキュメントレベルメタデータと分類を用いたドメイン特有な高速連続事前トレーニング技術
- Authors: Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, Yash Parag Butala, Pawan Goyal, Niloy Ganguly,
- Abstract要約: $FastDoc$は、ドメイン固有のコーパス上で、トランスフォーマーエンコーダを事前トレーニングするための計算効率のよいフレームワークである。
我々は、顧客サポート、科学的、法的ドメインという3つの異なるドメインで、そのようなドメイン固有の事前トレーニングを行います。
FastDoc$は、競争力のあるトランスフォーマーベースのベースラインに匹敵するか、あるいは同等のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 22.966473605998992
- License:
- Abstract: In this paper, we propose $FastDoc$ (Fast Continual Pre-training Technique using Document Level Metadata and Taxonomy), a novel, compute-efficient framework that utilizes Document metadata and Domain-Specific Taxonomy as supervision signals to continually pre-train transformer encoder on a domain-specific corpus. The main innovation is that during domain-specific pretraining, an open-domain encoder is continually pre-trained using sentence-level embeddings as inputs (to accommodate long documents), however, fine-tuning is done with token-level embeddings as inputs to this encoder. We perform such domain-specific pre-training on three different domains namely customer support, scientific, and legal domains, and compare performance on 6 different downstream tasks and 9 different datasets. The novel use of document-level supervision along with sentence-level embedding input for pre-training reduces pre-training compute by around $1,000$, $4,500$, and $500$ times compared to MLM and/or NSP in Customer Support, Scientific, and Legal Domains, respectively. The reduced training time does not lead to a deterioration in performance. In fact we show that $FastDoc$ either outperforms or performs on par with several competitive transformer-based baselines in terms of character-level F1 scores and other automated metrics in the Customer Support, Scientific, and Legal Domains. Moreover, reduced training aids in mitigating the risk of catastrophic forgetting. Thus, unlike baselines, $FastDoc$ shows a negligible drop in performance on open domain.
- Abstract(参考訳): 本稿では,文書メタデータとドメイン特化分類を利用した新しい計算効率の高いフレームワークである$FastDoc$を提案する。
ドメイン固有の事前トレーニングの間、オープンドメインエンコーダは文レベルの埋め込みを入力として(長いドキュメントに対応するために)継続的に事前訓練されるが、細調整はトークンレベルの埋め込みを入力としてこのエンコーダに行う。
このようなドメイン固有の事前トレーニングは、顧客サポート、科学的、法的ドメインの3つの異なるドメインで実施し、6つの下流タスクと9つの異なるデータセットのパフォーマンスを比較します。
文書レベルの監視と文レベルの埋め込み入力を事前学習に使用することにより、MLMやNSPの顧客サポート、科学、法務ドメインと比較して、事前学習の計算を約1,000ドル、$4,500ドル、$500ドル減らすことができる。
トレーニング時間を短縮しても性能は低下しない。
実際、$FastDoc$は、キャラクタレベルのF1スコアや、Customer Support、Scientific、Lawal Domainsにおける他の自動メトリクスの観点から、いくつかの競合トランスフォーマーベースのベースラインに匹敵するか、同等に動作します。
さらに、トレーニングの補助を減らし、破滅的な忘れ込みのリスクを軽減する。
したがって、ベースラインとは異なり、$FastDoc$はオープンドメインのパフォーマンスが無視できる低下を示している。
関連論文リスト
- A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Test-Time Domain Adaptation by Learning Domain-Aware Batch Normalization [39.14048972373775]
テストタイムドメイン適応は、ソースドメインでトレーニングされたモデルを、ラベルのないいくつかのイメージを使用して、未表示のターゲットドメインに適応することを目的としている。
従来の作業は通常、ラベルとドメイン間の知識を明示的に分離することなく、ネットワーク全体をナビゲート的に更新する。
本稿では,BN層のみを操作することにより,そのような学習の干渉を低減し,ドメイン知識の学習を高めることを提案する。
論文 参考訳(メタデータ) (2023-12-15T19:22:21Z) - AdaSent: Efficient Domain-Adapted Sentence Embeddings for Few-Shot
Classification [53.84663977283108]
事前学習文(SEs)に基づく文章分類は効率的で堅牢で効果的である。
本稿では, DAPT から SEPT を分離する AdaSent を提案する。
AdaSent は DAPT による PLM 上での完全 SEPT の性能にマッチするか、上回るが、トレーニングコストは大幅に削減される。
論文 参考訳(メタデータ) (2023-11-01T10:00:15Z) - Domain Adaptation for Time-Series Classification to Mitigate Covariate
Shift [3.071136270246468]
本稿では,2つのステップに基づいた新しいドメイン適応手法を提案する。
まず、いくつかのサンプルから、ソースからターゲットドメインへの最適なクラス依存変換を探索する。
次に、埋め込み類似性技術を用いて、推論時に対応する変換を選択する。
論文 参考訳(メタデータ) (2022-04-07T10:27:14Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。