論文の概要: Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models
- arxiv url: http://arxiv.org/abs/2305.09144v2
- Date: Wed, 13 Mar 2024 12:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:04.455734
- Title: Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models
- Title(参考訳): 注意すべきか忘れるべきか : 知識記憶機構に潜む
言語モデルについて
- Authors: Boxi Cao, Qiaoyu Tang, Hongyu Lin, Shanshan Jiang, Bin Dong, Xianpei
Han, Jiawei Chen, Tianshu Wang, Le Sun
- Abstract要約: 大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
- 参考スコア(独自算出の注目度): 49.39276272693035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory is one of the most essential cognitive functions serving as a
repository of world knowledge and episodes of activities. In recent years,
large-scale pre-trained language models have shown remarkable memorizing
ability. On the contrary, vanilla neural networks without pre-training have
been long observed suffering from the catastrophic forgetting problem. To
investigate such a retentive-forgetful contradiction and understand the memory
mechanism of language models, we conduct thorough experiments by controlling
the target knowledge types, the learning strategies and the learning schedules.
We find that: 1) Vanilla language models are forgetful; 2) Pre-training leads
to retentive language models; 3) Knowledge relevance and diversification
significantly influence the memory formation. These conclusions are useful for
understanding the abilities of pre-trained language models and shed light on
designing and evaluating new learning and inference algorithms of language
models.
- Abstract(参考訳): 記憶は、世界の知識と活動のエピソードのリポジトリとして機能する最も重要な認知機能の一つである。
近年、大規模な事前学習型言語モデルが顕著な記憶能力を示している。
それとは対照的に、前訓練のないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされているのが長年観察されてきた。
言語モデルの記憶機構を解明するために,対象とする知識タイプ,学習戦略,学習スケジュールを制御し,徹底的な実験を行う。
以下に示す。
1) バニラ語モデルは忘れがちである。
2)事前学習は,暗黙の言語モデルにつながる。
3)知識の関連性と多様化は記憶形成に大きな影響を及ぼす。
これらの結論は、事前訓練された言語モデルの能力を理解するのに有用であり、新しい学習アルゴリズムの設計と評価に重点を置いている。
関連論文リスト
- Enhancing elusive clues in knowledge learning by contrasting attention of language models [19.37767409898751]
本稿では,言語モデル事前学習における知識学習の促進手法を提案する。
より大きな言語モデルは、より小さな言語モデルによって見落とされがちな、目立たないが重要な手がかりにより多くの注意を払っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T15:30:54Z) - Opening the black box of language acquisition [0.0]
我々は、学習言語のための、より透明で認知的に妥当なアーキテクチャを提案する。
ディープラーニングの代わりに、シーケンスメモリとチャンキングに基づいた最小限の認知アーキテクチャを使用します。
その結果、モデルがこれらの人工言語をスクラッチから学習し、学習を支援する文法情報を抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-02-18T19:11:58Z) - Causal Graph in Language Model Rediscovers Cortical Hierarchy in Human
Narrative Processing [0.0]
これまでの研究では、言語モデルの特徴がfMRI脳活動にマッピングできることが示されている。
これは、言語モデルにおける情報処理と人間の脳の間に共通点があるのだろうか?
言語モデルにおける情報フローパターンを推定するために,異なる層間の因果関係について検討した。
論文 参考訳(メタデータ) (2023-11-17T10:09:12Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Brain-inspired feature exaggeration in generative replay for continual
learning [4.682734815593623]
新しいクラスを学ぶとき、以前に学んだクラスの内部表現はしばしば上書きされる。
神経科学の最近の進歩は、脳が自身の記憶干渉を避ける方法を発見した。
本稿では,クラス増分学習データセットCIFAR100の早期クラス分類における最先端性能について述べる。
論文 参考訳(メタデータ) (2021-10-26T10:49:02Z) - Adaptive Forgetting Curves for Spaced Repetition Language Learning [6.396596455749813]
心理学的特徴と言語学的特徴を取り入れた様々な忘れ曲線モデルについて検討する。
我々はこれらのモデルを用いて、第二言語としての英語学習者による単語リコールの確率を予測する。
単語の複雑さは、ニューラルネットワークモデルによってうまく学習される可能性のある、非常に有意義な特徴であることがわかった。
論文 参考訳(メタデータ) (2020-04-23T17:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。