論文の概要: Developmentally-plausible Working Memory Shapes a Critical Period for Language Acquisition
- arxiv url: http://arxiv.org/abs/2502.04795v1
- Date: Fri, 07 Feb 2025 09:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:56.405907
- Title: Developmentally-plausible Working Memory Shapes a Critical Period for Language Acquisition
- Title(参考訳): 言語習得に欠かせない言語記憶の発達的解明
- Authors: Masato Mita, Ryo Yoshida, Yohei Oseki,
- Abstract要約: 大きな言語モデルは一般的な言語能力を示すが、言語習得の効率において人間とは大きく異なる。
本研究では,臨界期における作業記憶の発達特性を統合する手法を提案する。
- 参考スコア(独自算出の注目度): 8.43537886261228
- License:
- Abstract: Large language models exhibit general linguistic abilities but significantly differ from humans in their efficiency of language acquisition. This study proposes a method for integrating the developmental characteristics of working memory during the critical period, a stage when human language acquisition is particularly efficient, into language models. The proposed method introduces a mechanism that initially constrains working memory during the early stages of training and gradually relaxes this constraint in an exponential manner as learning progresses. Targeted syntactic evaluation shows that the proposed method outperforms conventional models without memory constraints or with static memory constraints. These findings not only provide new directions for designing data-efficient language models but also offer indirect evidence supporting the underlying mechanisms of the critical period hypothesis in human language acquisition.
- Abstract(参考訳): 大きな言語モデルは一般的な言語能力を示すが、言語習得の効率において人間とは大きく異なる。
本研究では,人間の言語習得が特に効率的である臨界期の作業記憶の発達特性を言語モデルに統合する手法を提案する。
提案手法は,学習の初期段階において動作記憶を制約する機構を導入し,学習が進むにつれて指数関数的にこの制約を緩やかに緩和する。
目標構文評価の結果,提案手法はメモリ制約や静的メモリ制約を伴わない従来のモデルよりも優れていた。
これらの知見は、データ効率のよい言語モデルを設計するための新しい方向性を提供するだけでなく、人間の言語習得における臨界周期仮説の基盤となるメカニズムを裏付ける間接的な証拠を提供する。
関連論文リスト
- Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T15:35:41Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。