論文の概要: Investigating Continual Pretraining in Large Language Models: Insights
and Implications
- arxiv url: http://arxiv.org/abs/2402.17400v1
- Date: Tue, 27 Feb 2024 10:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:42:37.909442
- Title: Investigating Continual Pretraining in Large Language Models: Insights
and Implications
- Title(参考訳): 大規模言語モデルにおける継続事前学習の考察:洞察と意味
- Authors: \c{C}a\u{g}atay Y{\i}ld{\i}z, Nishaanth Kanna Ravichandran, Prishruit
Punia, Matthias Bethge, Beyza Ermis
- Abstract要約: 本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。
我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
- 参考スコア(独自算出の注目度): 9.591223887442704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the evolving domain of Continual Learning (CL) in large
language models (LLMs), with a focus on developing strategies for efficient and
sustainable training. Our primary emphasis is on continual domain-adaptive
pretraining, a process designed to equip LLMs with the ability to integrate new
information from various domains while retaining previously learned knowledge
and enhancing cross-domain knowledge transfer without relying on
domain-specific identification. Unlike previous studies, which mostly
concentrate on a limited selection of tasks or domains and primarily aim to
address the issue of forgetting, our research evaluates the adaptability and
capabilities of LLMs to changing data landscapes in practical scenarios. To
this end, we introduce a new benchmark designed to measure the adaptability of
LLMs to these evolving data environments, offering a comprehensive framework
for evaluation. We examine the impact of model size on learning efficacy and
forgetting, as well as how the progression and similarity of emerging domains
affect the knowledge transfer within these models. Our findings uncover several
key insights: (i) when the sequence of domains shows semantic similarity,
continual pretraining enables LLMs to better specialize in the current domain
compared to stand-alone fine-tuning, (ii) training across a diverse range of
domains enhances both backward and forward knowledge transfer, and (iii)
smaller models are particularly sensitive to continual pretraining, showing the
most significant rates of both forgetting and learning. We posit that our
research marks a shift towards establishing a more realistic benchmark for
investigating CL in LLMs, and has the potential to play a key role in guiding
the direction of future research in the field.
- Abstract(参考訳): 本稿では,大規模言語モデル(llm)における進化途上の連続学習領域(cl)について検討し,効率的かつ持続的な学習のための戦略の開発に焦点をあてる。
ドメイン固有の識別に頼ることなく、学習済みの知識を維持し、ドメイン間の知識伝達を向上しながら、様々なドメインからの新しい情報を統合する能力を備えたLLMを設計するプロセスである。
タスクやドメインの限られた選択に集中し,主に忘れの問題に対処する従来の研究とは異なり,本研究では,LLMの実践シナリオにおけるデータランドスケープの変化に対する適応性と能力を評価する。
この目的のために,これらの発展するデータ環境へのllmの適用性を測定するための新しいベンチマークを導入し,総合的な評価フレームワークを提供する。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
私たちの発見は、いくつかの重要な洞察を明らかにする。
i) ドメインのシーケンスがセマンティックな類似性を示す場合、連続的な事前訓練により、LCMはスタンドアローンの微調整に比べて、現在のドメインでより専門化することができる。
(ii)様々な分野にわたる訓練は、知識伝達の後方及び前方の両方を増強し、また、
3) より小さなモデルは特に継続事前学習に敏感であり, 忘れることと学習の両方において最も重要な割合を示す。
我々は,LLMにおけるCL調査のためのより現実的なベンチマークの確立に向けての我々の研究の転換であり,今後の研究の方向性を導く上で重要な役割を果たす可能性があることを示唆する。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain [4.133477882188227]
本稿では,日本のビジネスドメイン固有のLLMのトレーニングと評価から得られた知見について述べる。
事前訓練されたモデルとビジネスドメインのベンチマークは、さらなる研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-04-12T06:21:48Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Revisiting the Domain Shift and Sample Uncertainty in Multi-source
Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。
この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。
これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文 参考訳(メタデータ) (2023-11-21T13:12:21Z) - A Recent Survey of Heterogeneous Transfer Learning [15.830786437956144]
異種移動学習は 様々なタスクにおいて 重要な戦略となっている。
データベースとモデルベースの両方のアプローチを網羅した60以上のHTLメソッドの広範なレビューを提供する。
自然言語処理,コンピュータビジョン,マルチモーダル学習,バイオメディシンの応用について検討する。
論文 参考訳(メタデータ) (2023-10-12T16:19:58Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - On the Domain Adaptation and Generalization of Pretrained Language
Models: A Survey [15.533482481757353]
機械学習システムの観点から,ドメイン適応アプローチの分類法を提案する。
我々はこれらの手法を議論し、比較し、将来有望な研究方向性を提案する。
論文 参考訳(メタデータ) (2022-11-06T15:32:00Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。