論文の概要: Investigating Continual Pretraining in Large Language Models: Insights and Implications
- arxiv url: http://arxiv.org/abs/2402.17400v2
- Date: Wed, 12 Feb 2025 14:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:20.250644
- Title: Investigating Continual Pretraining in Large Language Models: Insights and Implications
- Title(参考訳): 大規模言語モデルにおける継続的事前学習の考察:洞察と意味
- Authors: Çağatay Yıldız, Nishaanth Kanna Ravichandran, Nitin Sharma, Matthias Bethge, Beyza Ermis,
- Abstract要約: 大規模言語モデル(LLM)における継続的な学習は、効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化途上のドメインである。
我々は,LLMの事前学習データランドスケープの変化に対する適応性を測定するために,新しいベンチマークを導入する。
i) 継続事前学習は、この研究で研究された1.5Bモデルを継続的に改善し、ドメイン適応よりも優れていること、(ii) より大きなモデルは、同じコーパス上で継続的に事前訓練された場合、より小さなモデルよりもずっと複雑であること、(iii) より小さなモデルは、特に連続事前訓練に敏感であること、そして、学習と学習の双方において最も有意な割合を示すこと、など、いくつかの重要な知見が明らかになった。
- 参考スコア(独自算出の注目度): 9.660013084324817
- License:
- Abstract: Continual learning (CL) in large language models (LLMs) is an evolving domain that focuses on developing efficient and sustainable training strategies to adapt models to emerging knowledge and achieve robustness in dynamic environments. Our primary emphasis is on continual domain-adaptive pretraining, a process designed to equip LLMs with the ability to integrate new information from various domains while retaining previously learned knowledge. Since existing works concentrate mostly on continual fine-tuning for a limited selection of downstream tasks or training domains, we introduce a new benchmark designed to measure the adaptability of LLMs to changing pretraining data landscapes. We further examine the impact of model size on learning efficacy and forgetting, as well as how the progression and similarity of emerging domains affect the knowledge transfer within these models. Our findings uncover several key insights: (i) continual pretraining consistently improves <1.5B models studied in this work and is also superior to domain adaptation, (ii) larger models always achieve better perplexity than smaller ones when continually pretrained on the same corpus, (iii) smaller models are particularly sensitive to continual pretraining, showing the most significant rates of both learning and forgetting, (iv) continual pretraining boosts downstream task performance of GPT-2 family, (v) continual pretraining enables LLMs to specialize better when the sequence of domains shows semantic similarity while randomizing training domains leads to better transfer and final performance otherwise. We posit that our research establishes a new benchmark for CL in LLMs, providing a more realistic evaluation of knowledge retention and transfer across diverse domains.
- Abstract(参考訳): 大規模言語モデル(LLM)における継続学習(CL)は、新しい知識にモデルを適応させ、動的環境における堅牢性を達成するための効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化したドメインである。
我々の主な重点は連続的なドメイン適応型事前学習(continuous domain-adaptive pretraining)である。
既存の研究は主に下流タスクや訓練領域の限定的な選択のための連続的な微調整に重点を置いているため、事前学習データランドスケープの変更に対するLCMの適応性を測定するために設計された新しいベンチマークを導入する。
さらに、モデルサイズが学習の有効性と忘れやすさに与える影響、および新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
私たちの発見は、いくつかの重要な洞察を明らかにしました。
(i) 連続事前訓練は、この研究で研究された<1.5B>モデルを一貫して改善し、ドメイン適応よりも優れている。
(ii)より大きいモデルは、常に同じコーパス上で事前訓練された場合、常により小さなモデルよりも難易度が向上する。
第三に、より小さなモデルは、特に連続的な事前訓練に敏感であり、学習と忘れの双方において最も重要な割合を示している。
(4)GPT-2ファミリーの下流作業性能は継続事前訓練により向上する
(v)連続事前学習により、ドメインのシーケンスがセマンティックな類似性を示す場合、LLMはより専門化でき、一方、トレーニングドメインをランダム化することで、転送と最終的なパフォーマンスが向上する。
本研究は,LLMにおけるCLの新しいベンチマークを確立し,知識保持と多分野間の伝達をより現実的に評価するものであることを示唆する。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
既存のメソッドは、しばしば追加の参照データ、分散やドメイン予測のための独立したコンポーネントに依存します。
本稿では,動的ランク選択型低ランク適応(LoRA)を提案する。
本手法は,学習済みの知識とCL中に獲得した知識の両方を保持することで,学習済みのVLMを継続的に強化する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs [38.65649832364651]
VersaTuneは、トレーニング中の大規模言語モデルのマルチビリティパフォーマンスを向上させるために設計された、新しいデータ合成フレームワークである。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-18T03:45:34Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Incremental Learning for Heterogeneous Structure Segmentation in Brain
Tumor MRI [11.314017805825685]
本稿では,従来のタスクと新しいタスクを分離するために,バランスの取れた剛性と可塑性分岐を有する分散型二重フローモジュールを提案する。
標的領域を連続的に変化させる脳腫瘍セグメンテーションタスクの枠組みについて検討した。
論文 参考訳(メタデータ) (2023-05-30T20:39:03Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。