論文の概要: The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets
- arxiv url: http://arxiv.org/abs/2306.14975v3
- Date: Fri, 5 Apr 2024 10:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:49:52.220206
- Title: The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets
- Title(参考訳): 複雑なデータセットのスケーリング法則と普遍的統計構造
- Authors: Noam Levi, Yaron Oz,
- Abstract要約: 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。
我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study universal traits which emerge both in real-world complex datasets, as well as in artificially generated ones. Our approach is to analogize data to a physical system and employ tools from statistical physics and Random Matrix Theory (RMT) to reveal their underlying structure. We focus on the feature-feature covariance matrix, analyzing both its local and global eigenvalue statistics. Our main observations are: (i) The power-law scalings that the bulk of its eigenvalues exhibit are vastly different for uncorrelated normally distributed data compared to real-world data, (ii) this scaling behavior can be completely modeled by generating Gaussian data with long range correlations, (iii) both generated and real-world datasets lie in the same universality class from the RMT perspective, as chaotic rather than integrable systems, (iv) the expected RMT statistical behavior already manifests for empirical covariance matrices at dataset sizes significantly smaller than those conventionally used for real-world training, and can be related to the number of samples required to approximate the population power-law scaling behavior, (v) the Shannon entropy is correlated with local RMT structure and eigenvalues scaling, is substantially smaller in strongly correlated datasets compared to uncorrelated ones, and requires fewer samples to reach the distribution entropy. These findings show that with sufficient sample size, the Gram matrix of natural image datasets can be well approximated by a Wishart random matrix with a simple covariance structure, opening the door to rigorous studies of neural network dynamics and generalization which rely on the data Gram matrix.
- Abstract(参考訳): 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。
我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。
特徴-特徴共分散行列に着目し、その局所的および大域的固有値統計を解析する。
私たちの主な観察は次の通りです。
一 実世界のデータと比較して、非相関な正規分布データに対して、その固有値の大半が示すパワーロースケーリングは、非常に異なる。
(II)このスケーリングの挙動は、長距離相関を持つガウスデータを生成することによって、完全にモデル化することができる。
(iii) 生成データセットと実世界のデータセットは、RTTの観点からは、可積分系ではなくカオス系と同じ普遍性クラスにある。
(4) RMTの予測統計行動は, 従来の実世界のトレーニングに使用されていたデータよりも, データセットサイズにおける経験的共分散行列に対して, すでに顕著に小さく, 集団パワー則スケーリング行動の近似に要するサンプル数に関連付けられる。
(v)シャノンエントロピーは局所RTT構造と固有値スケーリングと相関し、非相関データセットに比べて強い相関データセットでは著しく小さく、分布エントロピーに到達するのにサンプルが少ない。
これらの結果は、十分なサンプルサイズで、自然画像データセットのグラム行列は、単純な共分散構造を持つウィッシャート確率行列によってうまく近似することができ、ニューラルネットワークのダイナミクスとデータグラム行列に依存する一般化に関する厳密な研究への扉を開くことができることを示している。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Wrapped Gaussian on the manifold of Symmetric Positive Definite Matrices [6.7523635840772505]
円形および非平坦なデータ分布は、データ科学の様々な領域で広く使われている。
このようなデータの基盤となる幾何学を考慮に入れるための原則的なアプローチは、重要なものである。
この研究は、古典的な機械学習と統計手法をより複雑で構造化されたデータに拡張するための基礎となる。
論文 参考訳(メタデータ) (2025-02-03T16:46:46Z) - Learning Massive-scale Partial Correlation Networks in Clinical Multi-omics Studies with HP-ACCORD [10.459304300065186]
擬似表現に基づくグラフィカル・モデル・フレームワークを提案する。
これは高次元の仮定の下で様々な指標における推定と選択の整合性を維持する。
最大100万変数のシミュレーションデータを用いて,我々のフレームワークの高性能コンピューティング実装を検証した。
論文 参考訳(メタデータ) (2024-12-16T08:38:02Z) - Learning with Shared Representations: Statistical Rates and Efficient Algorithms [13.643155483461028]
潜在共有表現による協調学習により、異種クライアントは、サンプルサイズを減らしながら、パフォーマンスを向上したパーソナライズされたモデルをトレーニングできる。
経験的成功と広範な研究にもかかわらず、統計誤差率の理論的理解は、低次元線型部分空間に制約された共有表現でさえも不完全である。
論文 参考訳(メタデータ) (2024-09-07T21:53:01Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。
本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。
通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文 参考訳(メタデータ) (2021-03-24T21:08:43Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。