Fugu-MT 論文翻訳(概要): The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets

論文の概要: The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets

arxiv url: http://arxiv.org/abs/2306.14975v3
Date: Fri, 5 Apr 2024 10:45:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 20:49:52.220206
Title: The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets
Title（参考訳）: 複雑なデータセットのスケーリング法則と普遍的統計構造
Authors: Noam Levi, Yaron Oz,
Abstract要約: 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。
参考スコア（独自算出の注目度）: 2.07180164747172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study universal traits which emerge both in real-world complex datasets, as well as in artificially generated ones. Our approach is to analogize data to a physical system and employ tools from statistical physics and Random Matrix Theory (RMT) to reveal their underlying structure. We focus on the feature-feature covariance matrix, analyzing both its local and global eigenvalue statistics. Our main observations are: (i) The power-law scalings that the bulk of its eigenvalues exhibit are vastly different for uncorrelated normally distributed data compared to real-world data, (ii) this scaling behavior can be completely modeled by generating Gaussian data with long range correlations, (iii) both generated and real-world datasets lie in the same universality class from the RMT perspective, as chaotic rather than integrable systems, (iv) the expected RMT statistical behavior already manifests for empirical covariance matrices at dataset sizes significantly smaller than those conventionally used for real-world training, and can be related to the number of samples required to approximate the population power-law scaling behavior, (v) the Shannon entropy is correlated with local RMT structure and eigenvalues scaling, is substantially smaller in strongly correlated datasets compared to uncorrelated ones, and requires fewer samples to reach the distribution entropy. These findings show that with sufficient sample size, the Gram matrix of natural image datasets can be well approximated by a Wishart random matrix with a simple covariance structure, opening the door to rigorous studies of neural network dynamics and generalization which rely on the data Gram matrix.
Abstract（参考訳）: 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて、その基盤となる構造を明らかにすることである。特徴-特徴共分散行列に着目し、その局所的および大域的固有値統計を解析する。私たちの主な観察は次の通りです。一実世界のデータと比較して、非相関な正規分布データに対して、その固有値の大半が示すパワーロースケーリングは、非常に異なる。 (II)このスケーリングの挙動は、長距離相関を持つガウスデータを生成することによって、完全にモデル化することができる。 (iii) 生成データセットと実世界のデータセットは、RTTの観点からは、可積分系ではなくカオス系と同じ普遍性クラスにある。 (4) RMTの予測統計行動は, 従来の実世界のトレーニングに使用されていたデータよりも, データセットサイズにおける経験的共分散行列に対して, すでに顕著に小さく, 集団パワー則スケーリング行動の近似に要するサンプル数に関連付けられる。 (v)シャノンエントロピーは局所RTT構造と固有値スケーリングと相関し、非相関データセットに比べて強い相関データセットでは著しく小さく、分布エントロピーに到達するのにサンプルが少ない。これらの結果は、十分なサンプルサイズで、自然画像データセットのグラム行列は、単純な共分散構造を持つウィッシャート確率行列によってうまく近似することができ、ニューラルネットワークのダイナミクスとデータグラム行列に依存する一般化に関する厳密な研究への扉を開くことができることを示している。

関連論文リスト

A Random Matrix Theory Perspective on the Consistency of Diffusion Models [31.63433424187031]
データセットの異なるサブセットでトレーニングされた拡散モデルは、しばしば同じノイズシードを与えられたときに、著しく類似した出力を生成する。我々は,学習したデノイザとサンプリングマップの期待値と分散値の有限形状を定量化するランダム行列理論(RMT)フレームワークを開発した。我々は,UNet および DiT アーキテクチャの非記憶系における予測を検証した。
論文参考訳（メタデータ） (2026-02-02T23:30:28Z)
Summary Statistics of Large-scale Model Outputs for Observation-corrected Outputs [0.0]
Sig-PCAは、モデル出力からの要約統計とニューラルネットワーク(NN)による局所的な観測を統合した時空フレームワークである。この枠組みは、観測データとモデル出力の統計的要約の相乗効果を強調し、本質的な統計情報を保存することで、マルチソースデータを効果的に組み合わせている。
論文参考訳（メタデータ） (2025-06-18T19:49:56Z)
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
Landscape Complexity for the Empirical Risk of Generalized Linear Models: Discrimination between Structured Data [2.486161976966064]
我々は、Kac-Rice公式とランダム行列理論の結果を用いて、高次元の経験的損失関数の族の平均臨界点数を求める。相関は、現在の機械学習システムでよく見られるように、データ中の構造の存在をモデル化するために導入された。完全性のために、相関入力データの存在下での一般線形モデルの訓練に使用される損失関数についても検討する。
論文参考訳（メタデータ） (2025-03-18T16:44:33Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Learning Massive-scale Partial Correlation Networks in Clinical Multi-omics Studies with HP-ACCORD [10.459304300065186]
擬似表現に基づくグラフィカル・モデル・フレームワークを提案する。これは高次元の仮定の下で様々な指標における推定と選択の整合性を維持する。最大100万変数のシミュレーションデータを用いて,我々のフレームワークの高性能コンピューティング実装を検証した。
論文参考訳（メタデータ） (2024-12-16T08:38:02Z)
Learning with Shared Representations: Statistical Rates and Efficient Algorithms [13.643155483461028]
潜在共有表現による協調学習により、異種クライアントは、サンプルサイズを減らしながら、パフォーマンスを向上したパーソナライズされたモデルをトレーニングできる。経験的成功と広範な研究にもかかわらず、統計誤差率の理論的理解は、低次元線型部分空間に制約された共有表現でさえも不完全である。
論文参考訳（メタデータ） (2024-09-07T21:53:01Z)
Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文参考訳（メタデータ） (2024-06-07T14:29:21Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
coVariance Neural Networks [119.45320143101381]
グラフニューラルネットワーク(GNN)は、グラフ構造化データ内の相互関係を利用して学習する効果的なフレームワークである。我々は、サンプル共分散行列をグラフとして扱う、共分散ニューラルネットワーク(VNN)と呼ばれるGNNアーキテクチャを提案する。 VNN の性能は PCA ベースの統計手法よりも安定していることを示す。
論文参考訳（メタデータ） (2022-05-31T15:04:43Z)
Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文参考訳（メタデータ） (2022-05-03T13:38:58Z)
Optimal regularizations for data generation with probabilistic graphical models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文参考訳（メタデータ） (2021-12-02T14:45:16Z)
Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文参考訳（メタデータ） (2021-08-27T18:10:31Z)
CNN-based Realized Covariance Matrix Forecasting [0.0]
本稿では,CNN と Conal LSTM (ConvLSTM) を用いたエンドツーエンドトレーニングモデルを提案する。局所構造と相関に焦点をあて、歴史的に実現された共分散行列と将来の行列を結びつける非線形写像を学ぶ。人工的および実世界のデータセットに関する実証研究は、いくつかの高度なボラティリティモデルと比較して優れた予測能力を示している。
論文参考訳（メタデータ） (2021-07-22T12:02:24Z)
Post-mortem on a deep learning contest: a Simpson's paradox and the complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文参考訳（メタデータ） (2021-06-01T19:19:49Z)
Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文参考訳（メタデータ） (2021-03-24T21:08:43Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)
Meta-analysis of heterogeneous data: integrative sparse regression in high-dimensions [21.162280861396205]
本稿では,データソースが類似しているが識別できない高次元環境におけるメタ分析の課題について考察する。異質性の存在下での解釈可能性と統計的効率を重視したグローバルパラメータを導入する。いくつかの異なる癌細胞株を含む大規模薬物治療データセットに対するアプローチの利点を実証する。
論文参考訳（メタデータ） (2019-12-26T20:30:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。