論文の概要: $FastDoc$: Domain-Specific Fast Pre-training Technique using
Document-Level Metadata and Taxonomy
- arxiv url: http://arxiv.org/abs/2306.06190v2
- Date: Tue, 14 Nov 2023 21:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:10:58.283067
- Title: $FastDoc$: Domain-Specific Fast Pre-training Technique using
Document-Level Metadata and Taxonomy
- Title(参考訳): $FastDoc$: ドキュメントレベルメタデータと分類を用いたドメイン特有な高速事前トレーニング技術
- Authors: Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, Yash Parag
Butala, Pawan Goyal, Niloy Ganguly
- Abstract要約: $FastDoc$は計算要求を大幅に削減するために設計された新しいアプローチである。
文レベルの埋め込みを用いたオープンドメイントランスフォーマーエンコーダの継続的な事前トレーニングを含む。
$FastDoc$は、競合するアプローチと比較して、約1000倍、4,500倍、500倍の計算削減を実現している。
- 参考スコア(独自算出の注目度): 24.118143975658217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the demand for sophisticated Natural Language Processing (NLP) models
continues to grow, so does the need for efficient pre-training techniques.
Current NLP models undergo resource-intensive pre-training. In response, we
introduce $FastDoc$ (Fast Pre-training Technique using Document-Level Metadata
and Taxonomy), a novel approach designed to significantly reduce computational
demands. $FastDoc$ leverages document metadata and domain-specific taxonomy as
supervision signals. It involves continual pre-training of an open-domain
transformer encoder using sentence-level embeddings, followed by fine-tuning
using token-level embeddings. We evaluate $FastDoc$ on six tasks across nine
datasets spanning three distinct domains. Remarkably, $FastDoc$ achieves
remarkable compute reductions of approximately 1,000x, 4,500x, 500x compared to
competitive approaches in Customer Support, Scientific, and Legal domains,
respectively. Importantly, these efficiency gains do not compromise performance
relative to competitive baselines. Furthermore, reduced pre-training data
mitigates catastrophic forgetting, ensuring consistent performance in
open-domain scenarios. $FastDoc$ offers a promising solution for
resource-efficient pre-training, with potential applications spanning various
domains.
- Abstract(参考訳): 高度な自然言語処理(NLP)モデルの需要が拡大するにつれ、効率的な事前学習技術の必要性も高まっている。
現在のNLPモデルはリソース集約型事前学習を行っている。
これに対し、計算要求を大幅に削減する新しいアプローチである$FastDoc$(Document-Level MetadataとTaxonomyを用いたFast Pre-training Technique)を導入する。
$FastDoc$は、ドキュメントメタデータとドメイン固有の分類を監視信号として利用する。
文レベルの埋め込みを用いたオープンドメイントランスフォーマーエンコーダの継続的な事前トレーニングと、トークンレベルの埋め込みによる微調整を含む。
3つの異なるドメインにまたがる9つのデータセットにわたる6つのタスクに対して$FastDoc$を評価する。
驚くべきことに、$fastdoc$は、顧客サポート、科学、法的なドメインにおける競争的アプローチと比較して、約1000倍、4500倍、500倍という驚くべき計算量削減を達成している。
重要なことは、これらの効率向上は、競争ベースラインと比較してパフォーマンスを損なうことはない。
さらに、事前トレーニングデータの削減は破滅的な忘れを緩和し、オープンドメインシナリオにおける一貫したパフォーマンスを確保する。
$FastDoc$は、リソース効率の良い事前トレーニングのための有望なソリューションを提供する。
関連論文リスト
- USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Simple and Scalable Nearest Neighbor Machine Translation [11.996135740547897]
$k$NN-MTは、高速なドメイン適応のための強力なアプローチである。
簡便でスケーラブルな近接機械翻訳フレームワークを提案する。
提案手法は性能劣化のないNMTモデルとしてほぼ90%の高速化を実現する。
論文 参考訳(メタデータ) (2023-02-23T17:28:29Z) - Federated Auto-weighted Domain Adaptation [13.057038091890359]
Federated Domain Adaptation (FDA)は、限られたデータが利用可能なターゲットクライアントのパフォーマンスを改善するために、ソースクライアントのセットが協調して動作するフェデレーション学習環境について説明している。
FDAの設定を特徴付ける指標を導入し、アグリゲーションルールの性能を分析するための理論的枠組みを提示する。
我々はまた、トレーニング中にソース勾配とターゲット勾配を集約するために使われるFDA(Federated Gradient Projection)(texttFedGP$)の新しいアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2023-02-10T04:46:22Z) - Automatic Document Selection for Efficient Encoder Pretraining [31.941315346316465]
より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。
我々はOntoNotes corpusをターゲットドメインとして扱い、Pileのシニカルに選択されたサブセットからRoBERTaライクなエンコーダを事前訓練する。
ターゲットドメイン内の複数のダウンストリームタスクの両方において、ランダム選択を一貫して20倍少ないデータ、3倍のトレーニングイテレーション、3倍のクラウド計算コストでパフォーマンスします。
論文 参考訳(メタデータ) (2022-10-20T01:45:02Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - ProgFed: Effective, Communication, and Computation Efficient Federated
Learning by Progressive Training [78.44473677588887]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
これは本質的に、最終モデルの強力な性能を維持しながら、計算と双方向通信コストを削減します。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Pre-train or Annotate? Domain Adaptation with a Constrained Budget [25.44621972274297]
固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきだろうか?
3つの手続き的テキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定する。
小さな予算では、アノテーションにすべての資金を費やすことが、最高のパフォーマンスにつながります。
論文 参考訳(メタデータ) (2021-09-10T07:28:26Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。