論文の概要: Investigating Continual Pretraining in Large Language Models: Insights
and Implications
- arxiv url: http://arxiv.org/abs/2402.17400v1
- Date: Tue, 27 Feb 2024 10:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:42:37.909442
- Title: Investigating Continual Pretraining in Large Language Models: Insights
and Implications
- Title(参考訳): 大規模言語モデルにおける継続事前学習の考察:洞察と意味
- Authors: \c{C}a\u{g}atay Y{\i}ld{\i}z, Nishaanth Kanna Ravichandran, Prishruit
Punia, Matthias Bethge, Beyza Ermis
- Abstract要約: 本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。
我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
- 参考スコア(独自算出の注目度): 9.591223887442704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the evolving domain of Continual Learning (CL) in large
language models (LLMs), with a focus on developing strategies for efficient and
sustainable training. Our primary emphasis is on continual domain-adaptive
pretraining, a process designed to equip LLMs with the ability to integrate new
information from various domains while retaining previously learned knowledge
and enhancing cross-domain knowledge transfer without relying on
domain-specific identification. Unlike previous studies, which mostly
concentrate on a limited selection of tasks or domains and primarily aim to
address the issue of forgetting, our research evaluates the adaptability and
capabilities of LLMs to changing data landscapes in practical scenarios. To
this end, we introduce a new benchmark designed to measure the adaptability of
LLMs to these evolving data environments, offering a comprehensive framework
for evaluation. We examine the impact of model size on learning efficacy and
forgetting, as well as how the progression and similarity of emerging domains
affect the knowledge transfer within these models. Our findings uncover several
key insights: (i) when the sequence of domains shows semantic similarity,
continual pretraining enables LLMs to better specialize in the current domain
compared to stand-alone fine-tuning, (ii) training across a diverse range of
domains enhances both backward and forward knowledge transfer, and (iii)
smaller models are particularly sensitive to continual pretraining, showing the
most significant rates of both forgetting and learning. We posit that our
research marks a shift towards establishing a more realistic benchmark for
investigating CL in LLMs, and has the potential to play a key role in guiding
the direction of future research in the field.
- Abstract(参考訳): 本稿では,大規模言語モデル(llm)における進化途上の連続学習領域(cl)について検討し,効率的かつ持続的な学習のための戦略の開発に焦点をあてる。
ドメイン固有の識別に頼ることなく、学習済みの知識を維持し、ドメイン間の知識伝達を向上しながら、様々なドメインからの新しい情報を統合する能力を備えたLLMを設計するプロセスである。
タスクやドメインの限られた選択に集中し,主に忘れの問題に対処する従来の研究とは異なり,本研究では,LLMの実践シナリオにおけるデータランドスケープの変化に対する適応性と能力を評価する。
この目的のために,これらの発展するデータ環境へのllmの適用性を測定するための新しいベンチマークを導入し,総合的な評価フレームワークを提供する。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
私たちの発見は、いくつかの重要な洞察を明らかにする。
i) ドメインのシーケンスがセマンティックな類似性を示す場合、連続的な事前訓練により、LCMはスタンドアローンの微調整に比べて、現在のドメインでより専門化することができる。
(ii)様々な分野にわたる訓練は、知識伝達の後方及び前方の両方を増強し、また、
3) より小さなモデルは特に継続事前学習に敏感であり, 忘れることと学習の両方において最も重要な割合を示す。
我々は,LLMにおけるCL調査のためのより現実的なベンチマークの確立に向けての我々の研究の転換であり,今後の研究の方向性を導く上で重要な役割を果たす可能性があることを示唆する。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
既存のメソッドは、しばしば追加の参照データ、分散やドメイン予測のための独立したコンポーネントに依存します。
本稿では,動的ランク選択型低ランク適応(LoRA)を提案する。
本手法は,学習済みの知識とCL中に獲得した知識の両方を保持することで,学習済みのVLMを継続的に強化する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs [38.65649832364651]
VersaTuneは、トレーニング中の大規模言語モデルのマルチビリティパフォーマンスを向上させるために設計された、新しいデータ合成フレームワークである。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-18T03:45:34Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Incremental Learning for Heterogeneous Structure Segmentation in Brain
Tumor MRI [11.314017805825685]
本稿では,従来のタスクと新しいタスクを分離するために,バランスの取れた剛性と可塑性分岐を有する分散型二重フローモジュールを提案する。
標的領域を連続的に変化させる脳腫瘍セグメンテーションタスクの枠組みについて検討した。
論文 参考訳(メタデータ) (2023-05-30T20:39:03Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。