論文の概要: Examining Forgetting in Continual Pre-training of Aligned Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.03129v1
- Date: Sat, 6 Jan 2024 05:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:22:15.640807
- Title: Examining Forgetting in Continual Pre-training of Aligned Large Language
Models
- Title(参考訳): 適応型大言語モデルの継続事前学習における留意点の検討
- Authors: Chen-An Li, Hung-Yi Lee
- Abstract要約: 本研究では,既存の微調整LDMの連続事前訓練中に発生する忘れ現象について検討する。
実験結果は、連続的な事前訓練中に破滅的な忘れに対処する非自明な課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 66.62800021628276
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have exhibited remarkable
proficiency across various tasks. Given the potent applications of LLMs in
numerous fields, there has been a surge in LLM development. In developing LLMs,
a common practice involves continual pre-training on previously fine-tuned
models. However, this can lead to catastrophic forgetting. In our work, we
investigate the phenomenon of forgetting that occurs during continual
pre-training on an existing fine-tuned LLM. We evaluate the impact of
continuous pre-training on the fine-tuned LLM across various dimensions,
including output format, knowledge, and reliability. Experiment results
highlight the non-trivial challenge of addressing catastrophic forgetting
during continual pre-training, especially the repetition issue.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は, 様々なタスクにおいて顕著な能力を示した。
多くの分野におけるLLMの強力な応用を考えると、LLMの開発は急増している。
llmの開発では、予め微調整されたモデルでの継続的な事前トレーニングが一般的である。
しかし、これは大惨事に繋がる可能性がある。
本研究は,既存の微調整LDMにおける連続事前学習中に発生する忘れ現象について考察する。
連続事前学習が出力形式,知識,信頼性など,様々な次元にわたる微調整 LLM に与える影響を評価する。
実験結果は、連続的な事前訓練、特に反復問題における破滅的な忘れに対処する非自明な課題を浮き彫りにした。
関連論文リスト
- Taming Pre-trained LLMs for Generalised Time Series Forecasting via
Cross-modal Knowledge Distillation [62.46869075841118]
我々はLLaTAと呼ばれる新しい大規模言語モデルと時系列アライメントフレームワークを提案し、時系列予測課題におけるLLMの可能性を完全に解き放つ。
提案手法は, クロスモーダルな知識蒸留に基づいて, 入力に依存しない静的知識と, 事前学習LLMにおける入力依存動的知識の両方を利用する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Empowering Time Series Analysis with Large Language Models: A Survey [24.202539098675953]
本稿では,大規模言語モデルを用いた時系列解析手法の体系的概要について述べる。
具体的には、まず、時系列の文脈で言語モデルを適用する際の課題とモチベーションについて述べる。
次に、既存のメソッドを異なるグループ(ダイレクトクエリ、トークン化、プロンプトデザイン、ファインチューン、モデル統合)に分類し、各グループにおける主要なアイデアを強調します。
論文 参考訳(メタデータ) (2024-02-05T16:46:35Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。