論文の概要: Test Set Sizing Via Random Matrix Theory
- arxiv url: http://arxiv.org/abs/2112.05977v1
- Date: Sat, 11 Dec 2021 13:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:30:04.893813
- Title: Test Set Sizing Via Random Matrix Theory
- Title(参考訳): ランダム行列理論を用いたテストセットサイズ
- Authors: Alexander Dubbs
- Abstract要約: 本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper uses techniques from Random Matrix Theory to find the ideal
training-testing data split for a simple linear regression with m data points,
each an independent n-dimensional multivariate Gaussian. It defines "ideal" as
satisfying the integrity metric, i.e. the empirical model error is the actual
measurement noise, and thus fairly reflects the value or lack of same of the
model. This paper is the first to solve for the training and test size for any
model in a way that is truly optimal. The number of data points in the training
set is the root of a quartic polynomial Theorem 1 derives which depends only on
m and n; the covariance matrix of the multivariate Gaussian, the true model
parameters, and the true measurement noise drop out of the calculations. The
critical mathematical difficulties were realizing that the problems herein were
discussed in the context of the Jacobi Ensemble, a probability distribution
describing the eigenvalues of a known random matrix model, and evaluating a new
integral in the style of Selberg and Aomoto. Mathematical results are supported
with thorough computational evidence. This paper is a step towards automatic
choices of training/test set sizes in machine learning.
- Abstract(参考訳): 本稿ではランダム行列理論(Random Matrix Theory)の手法を用いて,mデータ点を持つ単純な線形回帰に対して,それぞれ独立なn-次元多変数ガウス関数を求める。
これは「理想」を整合性の基準を満たすものと定義し、即ち経験的モデル誤差は実際の測定ノイズであり、したがってモデルの値や欠如を反映している。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解く最初の方法である。
トレーニングセットにおけるデータポイントの数は、m と n にのみ依存する四進多項式 Theorem 1 の根であり、多変量ガウスの共分散行列、真のモデルパラメータ、真の測定ノイズが計算から消える。
これらの問題は、既知のランダム行列モデルの固有値を記述する確率分布であるジャコビアンサンブル(jacobi ensemble)の文脈で議論され、セルバーグとアオモト(aomoto)のスタイルにおける新しい積分を評価することが、重要な数学的困難を悟った。
数学的結果は徹底した計算証拠で裏付けられる。
本論文は,機械学習におけるトレーニング/テストセットサイズの自動選択に向けたステップである。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - When Random Tensors meet Random Matrices [50.568841545067144]
本稿では,ガウス雑音を伴う非対称次数-$d$スパイクテンソルモデルについて検討する。
検討したモデルの解析は、等価なスパイクされた対称テクシットブロック-ワイドランダム行列の解析に起因していることを示す。
論文 参考訳(メタデータ) (2021-12-23T04:05:01Z) - Near optimal sample complexity for matrix and tensor normal models via
geodesic convexity [5.191641077435773]
いくつかの自然測度において、最大極大推定器(MLE)によって達成された誤差に対する漸近的境界を示す。
サンプルの複雑性境界と同じ条件下では、フリップフロップアルゴリズム(英語版)として知られるMLEを反復的に計算する手法が高い確率で線形に収束することを示す。
論文 参考訳(メタデータ) (2021-10-14T17:47:00Z) - Statistical limits of dictionary learning: random matrix theory and the
spectral replica method [28.54289139061295]
ベイズ最適設定における行列記述と辞書学習の複雑なモデルについて考察する。
本稿では, 統計力学とランダム行列理論, スペクトル複製法を組み合わせた新しいレプリカ法を提案する。
論文 参考訳(メタデータ) (2021-09-14T12:02:32Z) - Learning with Density Matrices and Random Features [44.98964870180375]
密度行列は、量子系の統計状態を記述する。
量子系の量子的不確実性と古典的不確実性の両方を表現することは強力な形式主義である。
本稿では,機械学習モデルのビルディングブロックとして密度行列をどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2021-02-08T17:54:59Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Semi-analytic approximate stability selection for correlated data in
generalized linear models [3.42658286826597]
そこで本研究では,繰り返しのフィッティングを行なわずに安定選択を行うことのできる,新しい近似推論アルゴリズムを提案する。
このアルゴリズムは,情報理論の統計力学とベクトル近似メッセージパッシングの複製法に基づく。
数値実験により, このアルゴリズムは, 合成データと実世界のデータの両方に対して, 高速収束と高い近似精度を示すことを示した。
論文 参考訳(メタデータ) (2020-03-19T10:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。