論文の概要: How Do Large Language Models Acquire Factual Knowledge During Pretraining?
- arxiv url: http://arxiv.org/abs/2406.11813v2
- Date: Wed, 30 Oct 2024 03:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:21.972998
- Title: How Do Large Language Models Acquire Factual Knowledge During Pretraining?
- Title(参考訳): 大規模言語モデルが事前学習中にファクチュアルな知識をどうやって獲得するか?
- Authors: Hoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo,
- Abstract要約: 本研究では,大規模言語モデル(LLM)が事前学習中に事実知識を取得する方法を検討する。
発見は、事前訓練中の事実知識獲得のダイナミクスに関するいくつかの重要な洞察を明らかにしている。
- 参考スコア(独自算出の注目度): 36.59608982935844
- License:
- Abstract: Despite the recent observation that large language models (LLMs) can store substantial factual knowledge, there is a limited understanding of the mechanisms of how they acquire factual knowledge through pretraining. This work addresses this gap by studying how LLMs acquire factual knowledge during pretraining. The findings reveal several important insights into the dynamics of factual knowledge acquisition during pretraining. First, counterintuitively, we observe that pretraining on more data shows no significant improvement in the model's capability to acquire and maintain factual knowledge. Next, there is a power-law relationship between training steps and forgetting of memorization and generalization of factual knowledge, and LLMs trained with duplicated training data exhibit faster forgetting. Third, training LLMs with larger batch sizes can enhance the models' robustness to forgetting. Overall, our observations suggest that factual knowledge acquisition in LLM pretraining occurs by progressively increasing the probability of factual knowledge presented in the pretraining data at each step. However, this increase is diluted by subsequent forgetting. Based on this interpretation, we demonstrate that we can provide plausible explanations for recently observed behaviors of LLMs, such as the poor performance of LLMs on long-tail knowledge and the benefits of deduplicating the pretraining corpus.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 事実知識を蓄積できるという近年の観測にもかかわらず, 事前学習による事実知識獲得のメカニズムは限定的に理解されている。
この研究は、LLMが事前学習中に事実知識を取得する方法を研究することで、このギャップに対処する。
この結果から,事前学習における事実知識獲得のダイナミクスに関する重要な知見が得られた。
第一に、本研究では、より多くのデータに対する事前学習が、事実知識を取得し、維持するモデルの能力に有意な改善を示さないことを観察する。
次に、トレーニングステップと記憶の忘れと事実知識の一般化との間には、強力な関係がある。
第3に、より大きなバッチサイズでLLMをトレーニングすることで、モデルを忘れることの堅牢性を高めることができる。
以上の結果から, LLM事前学習における事実知識獲得は, 各段階における事前学習データに提示される事実知識の確率を徐々に高めることによって達成されることが示唆された。
しかし、この増加はその後忘れられていく。
この解釈に基づいて,LLMの長期的知識に対する性能の低下や,事前学習コーパスの非重複化のメリットなど,最近観察されたLLMの行動に対して,妥当な説明が可能であることを示す。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
固有のソースの引用は透明性、解釈可能性、検証可能性を高めることができる。
我々のトレーニングレシピは、モデルの難易度に大きな影響を与えることなく、事前学習データへの忠実な帰属を可能にする。
論文 参考訳(メタデータ) (2024-04-01T09:39:38Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい知識を取得しながら学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデル(LLM)における連続的指導調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Measuring and Modifying Factual Knowledge in Large Language Models [2.8427946758947304]
大規模言語モデルは、膨大なテキストコレクションから得られた膨大な事実知識を格納する。
我々は,情報理論に基づく測度を用いて,大規模言語モデルに含まれる事実知識を推定する枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-09T21:25:48Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。