論文の概要: Unraveling Syntax: How Language Models Learn Context-Free Grammars
- arxiv url: http://arxiv.org/abs/2510.02524v1
- Date: Thu, 02 Oct 2025 19:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.155967
- Title: Unraveling Syntax: How Language Models Learn Context-Free Grammars
- Title(参考訳): Unraveling Syntax: 言語モデルが文脈自由文法をどのように学習するか
- Authors: Laura Ying Schulz, Daniel Mitropolsky, Tomaso Poggio,
- Abstract要約: 文脈自由文法から生成した合成言語に基づいて学習した小型モデルの学習力学について検討する。
より複雑な構造に進む前に、まず単純なサブ構造をマスターする子供とは異なり、トランスフォーマーは全てのサブ文法を並列に損失を減らす。
- 参考スコア(独自算出の注目度): 1.0465074236788003
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a new framework for understanding how language models acquire syntax. While large models achieve impressive results, little is known about their learning dynamics. Our approach starts with the observation that most domains of interest, such as natural language syntax, coding languages, arithmetic problems, are captured by probabilistic context-free grammars (PCFGs). We study the learning dynamics of small models trained on synthetic languages generated from PCFGs, enabling precise control over grammar complexity, recursion depth, and subgrammar structure. We prove several general, recursive formulae for the training loss and Kullback-Leibler divergence over the subgrammar structure of a PCFG. Empirically, we find that unlike children, who first master simple substructures before progressing to more complex constructions, transformers reduce loss across all subgrammars in parallel. We further show that subgrammar pretraining can improve the final loss for smaller models, and that pretrained models develop internal representations more aligned with the grammar's substructure. Finally, we demonstrate that models struggle with deeper recursive structures (a limitation even of large language models), revealing fundamental challenges in how neural networks represent hierarchical syntax. Overall, our work initiates the study of the learning dynamics of transformers on PCFGs as a versatile testbed for probing learning in language models, opening a research direction with many open questions.
- Abstract(参考訳): 言語モデルが構文を取得する方法を理解するための新しいフレームワークを導入する。
大きなモデルは印象的な結果をもたらすが、彼らの学習力学についてはほとんど知られていない。
私たちのアプローチは、自然言語構文、コーディング言語、算術問題など、ほとんどの関心領域が確率論的文脈自由文法(PCFG)によって捉えられているという観察から始まります。
そこで本研究では,PCFGから生成された合成言語に基づいて学習した小型モデルの学習ダイナミクスについて検討し,文法の複雑さ,再帰深さ,サブ文法構造を正確に制御する。
我々は,PCFGのサブグラム構造に対して,トレーニング損失とKulback-Leibler分散の一般再帰式を証明した。
経験的に、より複雑な構造に進む前に、まず単純なサブ構造をマスターする子供とは異なり、トランスフォーマーは全てのサブ文法を平行して損失を減少させる。
さらに、サブ文法事前学習は、より小さなモデルの最終的な損失を改善することができ、事前学習されたモデルは、文法のサブ構造により整合した内部表現を発達させることができることを示す。
最後に、モデルがより深い再帰構造(大きな言語モデルでさえ制限)に苦しむことを実証し、ニューラルネットワークが階層的な構文をどのように表現するかという根本的な課題を明らかにした。
本研究は,PCFGにおける変圧器の学習力学を,言語モデルにおける学習を探索するための多目的テストベッドとして開始し,多くのオープンな質問で研究の方向性を開放する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Transformer-Based Models Are Not Yet Perfect At Learning to Emulate
Structural Recursion [14.739369424331478]
本稿では,プログラミング言語領域における構造的再帰という抽象概念を,シーケンスモデリング問題や学習モデルの振る舞いにうまく結合する汎用フレームワークを提案する。
フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。
論文 参考訳(メタデータ) (2024-01-23T18:07:38Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。