論文の概要: Continual Training of Language Models for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2210.05549v1
- Date: Tue, 11 Oct 2022 15:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 13:36:23.900100
- Title: Continual Training of Language Models for Few-Shot Learning
- Title(参考訳): ファウショット学習のための言語モデルの連続学習
- Authors: Zixuan Ke, Haowei Lin, Yijia Shao, Hu Xu, Lei Shu, and Bing Liu
- Abstract要約: 大規模言語モデル(LM)の適用に関する最近の研究は、多くのNLPアプリケーションにおいて印象的な性能を実現している。
ラベルのないドメインコーパスを使用してLMを適応または後トレーニングすることで、ドメイン内のエンドタスクのパフォーマンスをさらに向上させることができる。
本稿では,未ラベル領域のコーパスを用いて,段階的にLMをポストトレーニングすることで,LMを継続的に拡張する問題を提案する。
結果として得られたシステムはCPT(Continual PostTraining)と呼ばれ、私たちの知る限り、最初の連続的なポストトレーニングシステムである。
- 参考スコア(独自算出の注目度): 20.840674614655942
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent work on applying large language models (LMs) achieves impressive
performance in many NLP applications. Adapting or posttraining an LM using an
unlabeled domain corpus can produce even better performance for end-tasks in
the domain. This paper proposes the problem of continually extending an LM by
incrementally post-train the LM with a sequence of unlabeled domain corpora to
expand its knowledge without forgetting its previous skills. The goal is to
improve the few-shot end-task learning in these domains. The resulting system
is called CPT (Continual PostTraining), which to our knowledge, is the first
continual post-training system. Experimental results verify its effectiveness.
- Abstract(参考訳): 大規模言語モデル(LM)の適用に関する最近の研究は、多くのNLPアプリケーションにおいて印象的な性能を実現している。
ラベルのないドメインコーパスを使用してLMを適応または後トレーニングすることで、ドメイン内のエンドタスクのパフォーマンスをさらに向上させることができる。
本論文は,lmを無ラベルドメインコーパスのシーケンスで段階的に訓練し,その知識を拡大し,そのスキルを忘れずにlmを継続的に拡張する問題を提案する。
目標は、これらのドメインにおける数発のエンドタスク学習を改善することだ。
結果として得られたシステムはCPT(Continual PostTraining)と呼ばれ、私たちの知る限り、最初の継続的なポストトレーニングシステムである。
実験結果から有効性が確認された。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models [21.95081572612883]
殆どの人は、破滅的な忘れが優れたIL性能を達成するための最大の障害であると仮定している。
PLMを用いたILのためのSEQ*と呼ばれるフラストレーションに簡単な手法を提案する。
その結果,SEQ* は最先端 (SOTA) IL 法と比較して,競争力や性能に優れていた。
論文 参考訳(メタデータ) (2023-12-13T04:14:22Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Continual Pre-training of Language Models [11.59945701446951]
既存の研究では、ドメインコーパスを使用してLMをドメインに適応させるために、さらに事前トレーニングを行うことで、ドメインのエンドタスク性能が向上することが示されている。
本稿では,未ラベルのドメインコーパスを連続してDAP訓練してこれらのドメインに適応させ,エンドタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T03:57:55Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z) - ELLE: Efficient Lifelong Pre-training for Emerging Data [91.52652408402815]
現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。
新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。
ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
論文 参考訳(メタデータ) (2022-03-12T01:53:53Z) - Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。
LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。
我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-10-12T17:57:00Z) - Feature Adaptation of Pre-Trained Language Models across Languages and
Domains with Robust Self-Training [47.12438995938133]
我々は、訓練済み言語モデル(PrLM)を微調整なしで新しいドメインに適用する。
PrLMから識別的特徴を学習するために,クラス認識型自己蒸留(CFd)を提案する。
2つの単言語および多言語Amazonレビューデータセットの実験は、CFdが継続的に自己学習のパフォーマンスを改善することができることを示している。
論文 参考訳(メタデータ) (2020-09-24T08:04:37Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。