論文の概要: Learning curves theory for hierarchically compositional data with power-law distributed features
- arxiv url: http://arxiv.org/abs/2505.07067v1
- Date: Sun, 11 May 2025 17:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.191962
- Title: Learning curves theory for hierarchically compositional data with power-law distributed features
- Title(参考訳): 階層的構成データに対するパワー則分布特徴を持つ学習曲線理論
- Authors: Francesco Cagnetta, Hyunmo Kang, Matthieu Wyart,
- Abstract要約: 確率論的文脈自由文法に基づく分類と次点予測タスクについて検討する。
分類において, 電力法則の分散化は, 電力法則の分布に依存する指数の学習曲線を導出することを示す。
生産ルールの分布は学習曲線の局所的な詳細を制御するが、大規模行動を記述する指数は制御しない。
- 参考スコア(独自算出の注目度): 5.662209616633733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent theories suggest that Neural Scaling Laws arise whenever the task is linearly decomposed into power-law distributed units. Alternatively, scaling laws also emerge when data exhibit a hierarchically compositional structure, as is thought to occur in language and images. To unify these views, we consider classification and next-token prediction tasks based on probabilistic context-free grammars -- probabilistic models that generate data via a hierarchy of production rules. For classification, we show that having power-law distributed production rules results in a power-law learning curve with an exponent depending on the rules' distribution and a large multiplicative constant that depends on the hierarchical structure. By contrast, for next-token prediction, the distribution of production rules controls the local details of the learning curve, but not the exponent describing the large-scale behaviour.
- Abstract(参考訳): ニューラルスケーリング法則(Neural Scaling Laws)は、タスクが線形に非合法な分散単位に分解されるときに生じることを最近の理論は示唆している。
あるいは、言語や画像のように、データが階層的な構成構造を示すときにも、スケーリング法則が現れる。
これらの見解を統一するために、我々は、生産ルールの階層を通してデータを生成する確率論的モデルである確率論的文脈自由文法に基づく分類と次トーケン予測タスクを検討する。
分類にあたっては, 規則の分布に依存する指数と, 階層構造に依存する大きな乗算定数とで, 正則な分散生産規則が成立すると, 正則学習曲線が成立することを示す。
対照的に、次世代の予測では、生産ルールの分布は学習曲線の局所的な詳細を制御するが、大規模な振る舞いを記述する指数は制御しない。
関連論文リスト
- Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - How compositional generalization and creativity improve as diffusion models are trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Neural Scaling Laws Rooted in the Data Distribution [0.0]
ディープニューラルネットワークは経験的なニューラルスケーリング法則を示し、誤差はモデルやデータサイズの増加とともにパワー法則として減少する。
パーコレーション理論を用いて,自然データセットを記述する数学的モデルを構築した。
パーコレーション理論シミュレーションから導かれたおもちゃのデータセット上で回帰モデルを訓練して理論を検証した。
論文 参考訳(メタデータ) (2024-12-10T22:01:38Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Obtaining Explainable Classification Models using Distributionally
Robust Optimization [12.511155426574563]
特徴値規則の集合を用いて構築した一般化線形モデルについて検討する。
ルールセットの間隔と予測精度の間には、固有のトレードオフが存在する。
我々はこれらの競合する要因に同時に対処するルールセットの集合を学習するための新しい定式化を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:45:34Z) - Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting [18.069747511100132]
時系列間の関係は、効果的な予測モデル学習における帰納バイアスとして利用することができる。
本稿では,関係性および階層的帰納バイアスを統一するグラフベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T16:27:25Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Background Knowledge Injection for Interpretable Sequence Classification [13.074542699823933]
本稿では,予測能力と解釈可能性のバランスをとる新しいシーケンス学習アルゴリズムを提案する。
我々は、単語やグラフの埋め込みによって注入された背景知識によって生成されるシンボル群を用いて、古典的なサブシーケンス特徴空間を拡張した。
また,シンボル埋め込みに基づく記号特徴集合の解釈可能性を評価するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2020-06-25T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。