論文の概要: Examining Forgetting in Continual Pre-training of Aligned Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.03129v1
- Date: Sat, 6 Jan 2024 05:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:22:15.640807
- Title: Examining Forgetting in Continual Pre-training of Aligned Large Language
Models
- Title(参考訳): 適応型大言語モデルの継続事前学習における留意点の検討
- Authors: Chen-An Li, Hung-Yi Lee
- Abstract要約: 本研究では,既存の微調整LDMの連続事前訓練中に発生する忘れ現象について検討する。
実験結果は、連続的な事前訓練中に破滅的な忘れに対処する非自明な課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 66.62800021628276
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have exhibited remarkable
proficiency across various tasks. Given the potent applications of LLMs in
numerous fields, there has been a surge in LLM development. In developing LLMs,
a common practice involves continual pre-training on previously fine-tuned
models. However, this can lead to catastrophic forgetting. In our work, we
investigate the phenomenon of forgetting that occurs during continual
pre-training on an existing fine-tuned LLM. We evaluate the impact of
continuous pre-training on the fine-tuned LLM across various dimensions,
including output format, knowledge, and reliability. Experiment results
highlight the non-trivial challenge of addressing catastrophic forgetting
during continual pre-training, especially the repetition issue.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は, 様々なタスクにおいて顕著な能力を示した。
多くの分野におけるLLMの強力な応用を考えると、LLMの開発は急増している。
llmの開発では、予め微調整されたモデルでの継続的な事前トレーニングが一般的である。
しかし、これは大惨事に繋がる可能性がある。
本研究は,既存の微調整LDMにおける連続事前学習中に発生する忘れ現象について考察する。
連続事前学習が出力形式,知識,信頼性など,様々な次元にわたる微調整 LLM に与える影響を評価する。
実験結果は、連続的な事前訓練、特に反復問題における破滅的な忘れに対処する非自明な課題を浮き彫りにした。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Exploring Forgetting in Large Language Model Pre-Training [18.858330348834777]
大型言語モデル(LLM)における全能モデル構築の難易度障害としての破滅的忘れ込み
我々は,事前学習における忘れの存在と測定を体系的に検討し,パープレキシティ(PPL)などの従来の指標に疑問を呈し,エンティティメモリの保持をよりよく検出するための新しい指標を導入した。
論文 参考訳(メタデータ) (2024-10-22T13:39:47Z) - Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Continual Learning of Large Language Models: A Comprehensive Survey [18.546766135948154]
静的、コンパイル済み、一般的なデータセットに基づいてトレーニングされた大規模言語モデル(LLMs)は、多くの研究方向や応用を引き起こしている。
そのような方向の1つは、トレーニング済みのLLMを動的データ分散、タスク構造、ユーザの好みに組み込むという、簡単ではない課題に対処する。
CL(Continuous Learning)コミュニティで広く研究されているが、LSMの領域では新たなマニフェストが提示されている。
論文 参考訳(メタデータ) (2024-04-25T17:38:57Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。