論文の概要: A Compact Pretraining Approach for Neural Language Models
- arxiv url: http://arxiv.org/abs/2208.12367v1
- Date: Thu, 25 Aug 2022 22:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:31:55.693081
- Title: A Compact Pretraining Approach for Neural Language Models
- Title(参考訳): ニューラルネットワークモデルのためのコンパクト事前学習手法
- Authors: Shahriar Golchin, Mihai Surdeanu, Nazgol Tavabi, Ata Kiapour
- Abstract要約: 事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。
抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。
我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
- 参考スコア(独自算出の注目度): 21.767174489837828
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Domain adaptation for large neural language models (NLMs) is coupled with
massive amounts of unstructured data in the pretraining phase. In this study,
however, we show that pretrained NLMs learn in-domain information more
effectively and faster from a compact subset of the data that focuses on the
key information in the domain. We construct these compact subsets from the
unstructured data using a combination of abstractive summaries and extractive
keywords. In particular, we rely on BART to generate abstractive summaries, and
KeyBERT to extract keywords from these summaries (or the original unstructured
text directly). We evaluate our approach using six different settings: three
datasets combined with two distinct NLMs. Our results reveal that the
task-specific classifiers trained on top of NLMs pretrained using our method
outperform methods based on traditional pretraining, i.e., random masking on
the entire data, as well as methods without pretraining. Further, we show that
our strategy reduces pretraining time by up to five times compared to vanilla
pretraining. The code for all of our experiments is publicly available at
https://github.com/shahriargolchin/compact-pretraining.
- Abstract(参考訳): 大規模ニューラルネットワークモデル(NLM)のドメイン適応は、事前学習フェーズにおいて大量の非構造化データと結合される。
しかし,本研究では,事前学習したNLMが,ドメイン内のキー情報に注目するデータのコンパクトなサブセットから,ドメイン内の情報をより効率的に,より高速に学習できることを示す。
抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクト部分集合を構築する。
特に、抽象的な要約を生成するためにBARTに依存しており、KeyBERTはこれらの要約(または元の非構造化テキスト)からキーワードを抽出する。
3つのデータセットと2つの異なるNLMを組み合わせた6つの異なる設定でアプローチを評価した。
以上の結果から,nlm上でトレーニングされたタスク固有分類器は,従来の事前学習法,すなわちデータ全体に対するランダムマスキング法,および事前学習を行わない手法よりも優れていた。
さらに,我々の戦略は,バニラ前訓練の5倍の事前訓練時間を短縮することを示した。
私たちの実験のコードはhttps://github.com/shahriargolchin/compact-pretrainingで公開されています。
関連論文リスト
- Bucket Pre-training is All You Need [9.332544709626875]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。
固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:27:23Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Towards Efficient Active Learning in NLP via Pretrained Representations [1.90365714903665]
ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。
能動学習ループ内でのLLMの事前学習表現を用いて,このプロセスを大幅に高速化する。
私たちの戦略は、アクティブな学習ループを通した微調整と同じようなパフォーマンスを得るが、計算コストは桁違いに低い。
論文 参考訳(メタデータ) (2024-02-23T21:28:59Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond prompting: Making Pre-trained Language Models Better Zero-shot
Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。
提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-29T16:01:51Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。