論文の概要: Deep networks learn to parse uniform-depth context-free languages from local statistics
- arxiv url: http://arxiv.org/abs/2602.06065v2
- Date: Mon, 09 Feb 2026 13:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 17:49:39.490972
- Title: Deep networks learn to parse uniform-depth context-free languages from local statistics
- Title(参考訳): 深層ネットワークは局所統計から一様深度文脈自由言語を解析することを学ぶ
- Authors: Jack T. Parley, Francesco Cagnetta, Matthieu Wyart,
- Abstract要約: 文だけで言語の構造がどのように学習できるかを理解することは、認知科学と機械学習の両方において中心的な問題である。
我々は,文脈自由文法(PCFG)のクラスを導入し,あいまいさの度合いとスケール間の相関構造を制御できる。
異なるスケールの相関関係が局所的曖昧性を持ち、データの階層的表現の出現を可能にする統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.183764229746926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how the structure of language can be learned from sentences alone is a central question in both cognitive science and machine learning. Studies of the internal representations of Large Language Models (LLMs) support their ability to parse text when predicting the next word, while representing semantic notions independently of surface form. Yet, which data statistics make these feats possible, and how much data is required, remain largely unknown. Probabilistic context-free grammars (PCFGs) provide a tractable testbed for studying these questions. However, prior work has focused either on the post-hoc characterization of the parsing-like algorithms used by trained networks; or on the learnability of PCFGs with fixed syntax, where parsing is unnecessary. Here, we (i) introduce a tunable class of PCFGs in which both the degree of ambiguity and the correlation structure across scales can be controlled; (ii) provide a learning mechanism -- an inference algorithm inspired by the structure of deep convolutional networks -- that links learnability and sample complexity to specific language statistics; and (iii) validate our predictions empirically across deep convolutional and transformer-based architectures. Overall, we propose a unifying framework where correlations at different scales lift local ambiguities, enabling the emergence of hierarchical representations of the data.
- Abstract(参考訳): 文だけで言語の構造がどのように学習できるかを理解することは、認知科学と機械学習の両方において中心的な問題である。
大言語モデル(LLM)の内部表現の研究は、次の単語を予測する際にテキストを解析する能力をサポートし、表面形式とは無関係に意味論的概念を表現している。
しかし、どのデータ統計がこれらの偉業を可能にするのか、どのくらいのデータが必要なのかは、いまだに不明である。
確率的文脈自由文法(PCFGs)は、これらの問題を研究するための抽出可能なテストベッドを提供する。
しかし、以前の研究は、訓練されたネットワークが使用するパーシングのようなアルゴリズムのポストホックな特徴付けや、パーシングが不要な固定構文を持つPCFGの学習性に重点を置いていた。
ここでは
i) あいまいさの度合いとスケール間の相関構造の両方を制御できるPCFGの調整可能なクラスを導入すること。
(二)学習可能性とサンプル複雑性を特定の言語統計に関連付ける学習メカニズム(深層畳み込みネットワークの構造に着想を得た推論アルゴリズム)を提供する。
3) 深い畳み込みとトランスフォーマーに基づくアーキテクチャを経験的に検証する。
全体として、異なるスケールの相関関係が局所的曖昧性を高め、データの階層的表現の出現を可能にする統一フレームワークを提案する。
関連論文リスト
- On the Emergence and Test-Time Use of Structural Information in Large Language Models [52.28603345019514]
本研究では,言語モデルが抽象構造を学習し,テスト時に学習した構造情報を利用する方法について検討する。
学習構造情報の出現は複雑な推論タスクと関連があることを実証的に示す。
論文 参考訳(メタデータ) (2026-01-25T15:02:25Z) - Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation [1.3750624267664158]
二分木を対話的に構築するための再帰的テーマ分割(RTP)を導入する。
ツリーの各ノードは、データを意味的に分割する自然言語の質問であり、完全に解釈可能な分類である。
RTPの質問駆動階層はBERTopicのような強力なベースラインからのキーワードベースのトピックよりも解釈可能であることを示す。
論文 参考訳(メタデータ) (2025-09-26T11:27:22Z) - Probability Signature: Bridging Data Semantics and Embedding Structure in Language Models [8.87728727154868]
トークン間の意味的関係を反映した確率シグネチャのセットを提案する。
Pile corpus のサブセット上で Qwen2.5 アーキテクチャをトレーニングすることで,我々の作業を大規模言語モデル (LLM) に一般化する。
論文 参考訳(メタデータ) (2025-09-24T13:49:44Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。
本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T17:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。