論文の概要: Investigating Continual Pretraining in Large Language Models: Insights and Implications
- arxiv url: http://arxiv.org/abs/2402.17400v2
- Date: Wed, 12 Feb 2025 14:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 18:10:00.537348
- Title: Investigating Continual Pretraining in Large Language Models: Insights and Implications
- Title(参考訳): 大規模言語モデルにおける継続的事前学習の考察:洞察と意味
- Authors: Çağatay Yıldız, Nishaanth Kanna Ravichandran, Nitin Sharma, Matthias Bethge, Beyza Ermis,
- Abstract要約: 大規模言語モデル(LLM)における継続的な学習は、効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化途上のドメインである。
我々は,LLMの事前学習データランドスケープの変化に対する適応性を測定するために,新しいベンチマークを導入する。
i) 継続事前学習は、この研究で研究された1.5Bモデルを継続的に改善し、ドメイン適応よりも優れていること、(ii) より大きなモデルは、同じコーパス上で継続的に事前訓練された場合、より小さなモデルよりもずっと複雑であること、(iii) より小さなモデルは、特に連続事前訓練に敏感であること、そして、学習と学習の双方において最も有意な割合を示すこと、など、いくつかの重要な知見が明らかになった。
- 参考スコア(独自算出の注目度): 9.660013084324817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) in large language models (LLMs) is an evolving domain that focuses on developing efficient and sustainable training strategies to adapt models to emerging knowledge and achieve robustness in dynamic environments. Our primary emphasis is on continual domain-adaptive pretraining, a process designed to equip LLMs with the ability to integrate new information from various domains while retaining previously learned knowledge. Since existing works concentrate mostly on continual fine-tuning for a limited selection of downstream tasks or training domains, we introduce a new benchmark designed to measure the adaptability of LLMs to changing pretraining data landscapes. We further examine the impact of model size on learning efficacy and forgetting, as well as how the progression and similarity of emerging domains affect the knowledge transfer within these models. Our findings uncover several key insights: (i) continual pretraining consistently improves <1.5B models studied in this work and is also superior to domain adaptation, (ii) larger models always achieve better perplexity than smaller ones when continually pretrained on the same corpus, (iii) smaller models are particularly sensitive to continual pretraining, showing the most significant rates of both learning and forgetting, (iv) continual pretraining boosts downstream task performance of GPT-2 family, (v) continual pretraining enables LLMs to specialize better when the sequence of domains shows semantic similarity while randomizing training domains leads to better transfer and final performance otherwise. We posit that our research establishes a new benchmark for CL in LLMs, providing a more realistic evaluation of knowledge retention and transfer across diverse domains.
- Abstract(参考訳): 大規模言語モデル(LLM)における継続学習(CL)は、新しい知識にモデルを適応させ、動的環境における堅牢性を達成するための効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化したドメインである。
我々の主な重点は連続的なドメイン適応型事前学習(continuous domain-adaptive pretraining)である。
既存の研究は主に下流タスクや訓練領域の限定的な選択のための連続的な微調整に重点を置いているため、事前学習データランドスケープの変更に対するLCMの適応性を測定するために設計された新しいベンチマークを導入する。
さらに、モデルサイズが学習の有効性と忘れやすさに与える影響、および新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
私たちの発見は、いくつかの重要な洞察を明らかにしました。
(i) 連続事前訓練は、この研究で研究された<1.5B>モデルを一貫して改善し、ドメイン適応よりも優れている。
(ii)より大きいモデルは、常に同じコーパス上で事前訓練された場合、常により小さなモデルよりも難易度が向上する。
第三に、より小さなモデルは、特に連続的な事前訓練に敏感であり、学習と忘れの双方において最も重要な割合を示している。
(4)GPT-2ファミリーの下流作業性能は継続事前訓練により向上する
(v)連続事前学習により、ドメインのシーケンスがセマンティックな類似性を示す場合、LLMはより専門化でき、一方、トレーニングドメインをランダム化することで、転送と最終的なパフォーマンスが向上する。
本研究は,LLMにおけるCLの新しいベンチマークを確立し,知識保持と多分野間の伝達をより現実的に評価するものであることを示唆する。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
継続学習(CL)において、視覚言語モデル(VLM)の事前学習知識が維持可能か、あるいは強化可能かを検討する。
動的ランク選択ロラ(CoDyRA)に基づくVLMの普遍的かつ効率的な連続学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs [38.65649832364651]
VersaTuneは、トレーニング中の大規模言語モデルのマルチビリティパフォーマンスを向上させるために設計された、新しいデータ合成フレームワークである。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-18T03:45:34Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain [4.133477882188227]
本稿では,日本のビジネスドメイン固有のLLMのトレーニングと評価から得られた知見について述べる。
事前訓練されたモデルとビジネスドメインのベンチマークは、さらなる研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-04-12T06:21:48Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Revisiting the Domain Shift and Sample Uncertainty in Multi-source
Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。
この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。
これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文 参考訳(メタデータ) (2023-11-21T13:12:21Z) - A Recent Survey of Heterogeneous Transfer Learning [15.830786437956144]
異種移動学習は 様々なタスクにおいて 重要な戦略となっている。
データベースとモデルベースの両方のアプローチを網羅した60以上のHTLメソッドの広範なレビューを提供する。
自然言語処理,コンピュータビジョン,マルチモーダル学習,バイオメディシンの応用について検討する。
論文 参考訳(メタデータ) (2023-10-12T16:19:58Z) - Incremental Learning for Heterogeneous Structure Segmentation in Brain
Tumor MRI [11.314017805825685]
本稿では,従来のタスクと新しいタスクを分離するために,バランスの取れた剛性と可塑性分岐を有する分散型二重フローモジュールを提案する。
標的領域を連続的に変化させる脳腫瘍セグメンテーションタスクの枠組みについて検討した。
論文 参考訳(メタデータ) (2023-05-30T20:39:03Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - On the Domain Adaptation and Generalization of Pretrained Language
Models: A Survey [15.533482481757353]
機械学習システムの観点から,ドメイン適応アプローチの分類法を提案する。
我々はこれらの手法を議論し、比較し、将来有望な研究方向性を提案する。
論文 参考訳(メタデータ) (2022-11-06T15:32:00Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。