論文の概要: Human-like fleeting memory improves language learning but impairs reading time prediction in transformer language models
- arxiv url: http://arxiv.org/abs/2508.05803v1
- Date: Thu, 07 Aug 2025 19:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.993599
- Title: Human-like fleeting memory improves language learning but impairs reading time prediction in transformer language models
- Title(参考訳): ヒューマンライクなフリーティングメモリは言語学習を改善するが、トランスフォーマー言語モデルにおける読解時間予測を損なう
- Authors: Abishek Thamma, Micha Heilbron,
- Abstract要約: 本稿では,トランスフォーマー言語モデルを用いた実験において,言語学習におけるフラッキングメモリの利点について検討する。
フラッキングメモリは、言語学習を継続的に改善するが、意外なことに、人間の読解時間の前提に基づく予測を損なう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human memory is fleeting. As words are processed, the exact wordforms that make up incoming sentences are rapidly lost. Cognitive scientists have long believed that this limitation of memory may, paradoxically, help in learning language - an idea supported by classic connectionist modelling work. The rise of Transformers appears to challenge this idea, as these models can learn language effectively, despite lacking memory limitations or other architectural recency biases. Here, we investigate the hypothesized benefit of fleeting memory for language learning in tightly controlled experiments on transformer language models. Training transformers with and without fleeting memory on a developmentally realistic training set, we find that fleeting memory consistently improves language learning (as quantified by both overall language modelling performance and targeted syntactic evaluation) but, unexpectedly, impairs surprisal-based prediction of human reading times. Interestingly, follow up analyses revealed that this discrepancy - better language modeling, yet worse reading time prediction - could not be accounted for by prior explanations of why better language models sometimes fit human reading time worse. Together, these results support a benefit of memory limitations on neural network language learning - but not on predicting behavior.
- Abstract(参考訳): 人間の記憶は揺らぎます。
単語が処理されると、入力文を構成する正確なワード形式が急速に失われる。
認知科学者は、この記憶の制限は、パラドックス的に、古典的なコネクショナリストのモデリング作業によって支持されるアイデアである言語を学ぶのに役立つかもしれないと長い間信じてきた。
トランスフォーマーの台頭は、メモリ制限やアーキテクチャ上の遅延バイアスが欠如しているにもかかわらず、これらのモデルは言語を効果的に学習できるため、この考え方に異議を唱えているように見える。
本稿では,トランスフォーマ言語モデルに対する厳密に制御された実験において,言語学習におけるフラッキングメモリの利点について検討する。
発達的に現実的な学習セットに記憶を流し込まないトランスフォーマーを訓練すると、フラインティングメモリは言語学習を一貫して改善する(全体的な言語モデリング性能と構文評価の両方で定量化される)が、意外なことに、人間の読解時間に関する予備的な予測を損なう。
興味深いことに、追跡分析の結果、この相違 - 優れた言語モデリング、さらに悪い読解時間予測 - が、なぜ優れた言語モデルが人間の読解時間に悪影響を及ぼすのかという以前の説明によって説明できないことが明らかになった。
これらの結果は、ニューラルネットワーク言語学習におけるメモリ制限の利点をサポートするが、振る舞いを予測するものではない。
関連論文リスト
- Speech language models lack important brain-relevant semantics [6.626540321463248]
近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
論文 参考訳(メタデータ) (2023-11-08T13:11:48Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - State space models can express n-gram languages [51.823427608117626]
我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。
我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。
n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。