Fugu-MT 論文翻訳(概要): Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures

論文の概要: Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures

arxiv url: http://arxiv.org/abs/2505.07070v1
Date: Sun, 11 May 2025 17:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.19449
Title: Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures
Title（参考訳）: 単純な階層型言語における法則のスケーリングと表現学習--トランスフォーマー対畳み込み型アーキテクチャ
Authors: Francesco Cagnetta, Alessandro Favero, Antonio Sclocchi, Matthieu Wyart,
Abstract要約: 合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
参考スコア（独自算出の注目度）: 49.19753720526998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How do neural language models acquire a language's structure when trained for next-token prediction? We address this question by deriving theoretical scaling laws for neural network performance on synthetic datasets generated by the Random Hierarchy Model (RHM) -- an ensemble of probabilistic context-free grammars designed to capture the hierarchical structure of natural language while remaining analytically tractable. Previously, we developed a theory of representation learning based on data correlations that explains how deep learning models capture the hierarchical structure of the data sequentially, one layer at a time. Here, we extend our theoretical framework to account for architectural differences. In particular, we predict and empirically validate that convolutional networks, whose structure aligns with that of the generative process through locality and weight sharing, enjoy a faster scaling of performance compared to transformer models, which rely on global self-attention mechanisms. This finding clarifies the architectural biases underlying neural scaling laws and highlights how representation learning is shaped by the interaction between model architecture and the statistical properties of data.
Abstract（参考訳）: ニューラルネットワークモデルは、次のトーケン予測のためにトレーニングされた場合、言語構造を取得するにはどうすればよいか? 本稿では,Random Hierarchy Model (RHM) が生成した合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出した。これまで我々は,データ相関に基づく表現学習理論を開発し,深層学習モデルがデータの階層構造を逐次的,一層にキャプチャする方法を説明した。ここでは、アーキテクチャの違いを考慮するために、理論的枠組みを拡張します。特に、局所性と重み共有によって生成過程の構造が整合している畳み込みネットワークは、グローバルな自己認識機構に依存するトランスフォーマーモデルに比べて、パフォーマンスの高速化を期待し、実証的に検証する。この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。

関連論文リスト

A Markov Categorical Framework for Language Modeling [9.910562011343009]
自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
論文参考訳（メタデータ） (2025-07-25T13:14:03Z)
Language Embedding Meets Dynamic Graph: A New Exploration for Neural Architecture Representation Learning [38.323486764309]
本稿では,言語に基づくセマンティック埋め込みと動的グラフ表現学習の相乗的統合により,制約に対処する革新的なフレームワークであるLeDG-Formerを紹介する。具体的には、ニューラルアーキテクチャとハードウェアプラットフォーム仕様の両方を統一的なセマンティック空間に投影する言語埋め込みフレームワークを提案する。本フレームワークは,NAS-Bench-101とNAS-Bench-201データセットに対して優れた性能を示す。
論文参考訳（メタデータ） (2025-06-09T13:20:02Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。 5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文参考訳（メタデータ） (2023-08-26T08:48:51Z)
A Recursive Bateson-Inspired Model for the Generation of Semantic Formal Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文参考訳（メタデータ） (2023-07-16T15:59:13Z)
Constructing Word-Context-Coupled Space Aligned with Associative Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文参考訳（メタデータ） (2023-05-19T09:26:02Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-05-14T09:02:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。