論文の概要: $FPDM$: Domain-Specific Fast Pre-training Technique using Document-Level
Metadata
- arxiv url: http://arxiv.org/abs/2306.06190v1
- Date: Fri, 9 Jun 2023 18:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:42:01.353374
- Title: $FPDM$: Domain-Specific Fast Pre-training Technique using Document-Level
Metadata
- Title(参考訳): $FPDM$:ドキュメントレベルメタデータを用いたドメイン特化高速事前学習技術
- Authors: Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, Yash Parag
Butala, Pawan Goyal, Niloy Ganguly
- Abstract要約: 事前トレーニングされたトランスフォーマーは、オープンドメインとドメイン固有の下流タスクに対して有望な結果を示している。
FPDM$は、ドキュメントメタデータとドメイン特化分類を監視信号として利用する計算効率のよいフレームワークである。
FPDM$は、文字レベルF1スコアやその他の自動測定値において、トランスフォーマーベースのベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 21.414611237045385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training Transformers has shown promising results on open-domain and
domain-specific downstream tasks. However, state-of-the-art Transformers
require an unreasonably large amount of pre-training data and compute. In this
paper, we propose $FPDM$ (Fast Pre-training Technique using Document Level
Metadata), a novel, compute-efficient framework that utilizes Document metadata
and Domain-Specific Taxonomy as supervision signals to pre-train transformer
encoder on a domain-specific corpus. The main innovation is that during
domain-specific pretraining, an open-domain encoder is continually pre-trained
using sentence-level embeddings as inputs (to accommodate long documents),
however, fine-tuning is done with token-level embeddings as inputs to this
encoder. We show that $FPDM$ outperforms several transformer-based baselines in
terms of character-level F1 scores and other automated metrics in the Customer
Support, Scientific, and Legal Domains, and shows a negligible drop in
performance on open-domain benchmarks. Importantly, the novel use of
document-level supervision along with sentence-level embedding input for
pre-training reduces pre-training compute by around $1,000$, $4,500$, and $500$
times compared to MLM and/or NSP in Customer Support, Scientific, and Legal
Domains, respectively. Code and datasets are available at
https://bit.ly/FPDMCode.
- Abstract(参考訳): 事前トレーニングトランスフォーマーは、オープンドメインとドメイン固有のダウンストリームタスクで有望な結果を示している。
しかし、最先端トランスフォーマーは不当に大量の事前学習データと計算を必要とする。
本稿では、文書メタデータとドメイン固有分類法を監督信号として利用し、ドメイン固有コーパス上のトランスフォーマエンコーダを事前学習する、新しい計算効率のよいフレームワークである$fpdm$(文書レベルメタデータを用いた高速事前トレーニング技術)を提案する。
ドメイン固有の事前トレーニングの間、オープンドメインエンコーダは文レベルの埋め込みを入力として(長いドキュメントに対応するために)継続的に事前訓練されるが、細調整はトークンレベルの埋め込みを入力として行う。
FPDM$は、顧客サポート、科学、法定ドメインにおける文字レベルF1スコアやその他の自動メトリクスにおいて、トランスフォーマーベースのベースラインよりも優れており、オープンベンチマークベンチマークでは、パフォーマンスが無視できる低下を示している。
重要なことは、文書レベルの監視と文レベルの埋め込み入力が事前学習の計算を、顧客サポート、科学、法律ドメインにおけるMLMおよびNSPと比較して約1,000ドル、$4,500ドル、および$500ドル減らすことである。
コードとデータセットはhttps://bit.ly/FPDMCodeで入手できる。
関連論文リスト
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - AdaSent: Efficient Domain-Adapted Sentence Embeddings for Few-Shot
Classification [53.84663977283108]
事前学習文(SEs)に基づく文章分類は効率的で堅牢で効果的である。
本稿では, DAPT から SEPT を分離する AdaSent を提案する。
AdaSent は DAPT による PLM 上での完全 SEPT の性能にマッチするか、上回るが、トレーニングコストは大幅に削減される。
論文 参考訳(メタデータ) (2023-11-01T10:00:15Z) - Domain Adaptation for Time-Series Classification to Mitigate Covariate
Shift [3.071136270246468]
本稿では,2つのステップに基づいた新しいドメイン適応手法を提案する。
まず、いくつかのサンプルから、ソースからターゲットドメインへの最適なクラス依存変換を探索する。
次に、埋め込み類似性技術を用いて、推論時に対応する変換を選択する。
論文 参考訳(メタデータ) (2022-04-07T10:27:14Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。