論文の概要: The Underlying Scaling Laws and Universal Statistical Structure of
Complex Datasets
- arxiv url: http://arxiv.org/abs/2306.14975v2
- Date: Sat, 30 Sep 2023 10:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:51:32.893742
- Title: The Underlying Scaling Laws and Universal Statistical Structure of
Complex Datasets
- Title(参考訳): 複雑なデータセットのスケールの法則と普遍的統計構造
- Authors: Noam Levi and Yaron Oz
- Abstract要約: 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。
我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。
- 参考スコア(独自算出の注目度): 2.44755919161855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study universal traits which emerge both in real-world complex datasets,
as well as in artificially generated ones. Our approach is to analogize data to
a physical system and employ tools from statistical physics and Random Matrix
Theory (RMT) to reveal their underlying structure. We focus on the
feature-feature covariance matrix, analyzing both its local and global
eigenvalue statistics. Our main observations are: (i) The power-law scalings
that the bulk of its eigenvalues exhibit are vastly different for uncorrelated
normally distributed data compared to real-world data, (ii) this scaling
behavior can be completely modeled by generating gaussian data with long range
correlations, (iii) both generated and real-world datasets lie in the same
universality class from the RMT perspective, as chaotic rather than integrable
systems, (iv) the expected RMT statistical behavior already manifests for
empirical covariance matrices at dataset sizes significantly smaller than those
conventionally used for real-world training, and can be related to the number
of samples required to approximate the population power-law scaling behavior,
(v) the Shannon entropy is correlated with local RMT structure and eigenvalues
scaling, and substantially smaller in strongly correlated datasets compared to
uncorrelated synthetic data, and requires fewer samples to reach the
distribution entropy. These findings show that with sufficient sample size, the
Gram matrix of natural image datasets can be well approximated by a Wishart
random matrix with a simple covariance structure, opening the door to rigorous
studies of neural network dynamics and generalization which rely on the data
Gram matrix.
- Abstract(参考訳): 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。
我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて基礎構造を明らかにすることである。
局所的および大域的固有値統計を解析し,特徴的共分散行列に着目した。
私たちの主な観察は
(i)実世界のデータとは無関係な通常分散データに対して、その固有値の大部分が著しく異なるパワーロースケーリング。
(ii)このスケーリング挙動は、長距離相関を持つガウスデータを生成することによって完全にモデル化することができる。
(iii)生成データと実世界のデータセットは、統合可能なシステムではなくカオスとして、rmtの観点から同じ普遍性クラスにある。
(4) RMTの予測統計行動は, 従来の実世界のトレーニングに使用されていたデータよりも, データセットサイズにおける経験的共分散行列に対して, すでに顕著に小さく, 集団パワー則スケーリング行動の近似に要するサンプル数に関連付けられる。
(v)シャノンエントロピーは、局所rmt構造および固有値スケーリングと相関し、非相関合成データと比較して強相関データセットでは大幅に小さく、分布エントロピーに達するにはサンプルが少ない。
これらの結果は、十分なサンプルサイズを持つ自然画像データセットのグラム行列は、単純な共分散構造を持つウィシャートランダム行列によってよく近似され、ニューラルネットワークのダイナミクスとデータグラム行列に依存する一般化に関する厳密な研究への扉を開くことを示している。
関連論文リスト
- Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - coVariance Neural Networks [119.45320143101381]
グラフニューラルネットワーク(GNN)は、グラフ構造化データ内の相互関係を利用して学習する効果的なフレームワークである。
我々は、サンプル共分散行列をグラフとして扱う、共分散ニューラルネットワーク(VNN)と呼ばれるGNNアーキテクチャを提案する。
VNN の性能は PCA ベースの統計手法よりも安定していることを示す。
論文 参考訳(メタデータ) (2022-05-31T15:04:43Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - CNN-based Realized Covariance Matrix Forecasting [0.0]
本稿では,CNN と Conal LSTM (ConvLSTM) を用いたエンドツーエンドトレーニングモデルを提案する。
局所構造と相関に焦点をあて、歴史的に実現された共分散行列と将来の行列を結びつける非線形写像を学ぶ。
人工的および実世界のデータセットに関する実証研究は、いくつかの高度なボラティリティモデルと比較して優れた予測能力を示している。
論文 参考訳(メタデータ) (2021-07-22T12:02:24Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。
本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。
通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文 参考訳(メタデータ) (2021-03-24T21:08:43Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Meta-analysis of heterogeneous data: integrative sparse regression in
high-dimensions [21.162280861396205]
本稿では,データソースが類似しているが識別できない高次元環境におけるメタ分析の課題について考察する。
異質性の存在下での解釈可能性と統計的効率を重視したグローバルパラメータを導入する。
いくつかの異なる癌細胞株を含む大規模薬物治療データセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2019-12-26T20:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。