論文の概要: The Breakdown of Gaussian Universality in Classification of High-dimensional Mixtures
- arxiv url: http://arxiv.org/abs/2410.05609v1
- Date: Tue, 8 Oct 2024 01:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:38:51.425917
- Title: The Breakdown of Gaussian Universality in Classification of High-dimensional Mixtures
- Title(参考訳): 高次元混合の分類におけるガウス普遍性の破壊
- Authors: Xiaoyi Mai, Zhenyu Liao,
- Abstract要約: 一般的な混合データ環境下での分類における経験的リスク最小化の高次元的特徴について述べる。
ガウス普遍性の条件を定義し、損失関数の選択に対するそれらの意味について議論する。
- 参考スコア(独自算出の注目度): 6.863637695977277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The assumption of Gaussian or Gaussian mixture data has been extensively exploited in a long series of precise performance analyses of machine learning (ML) methods, on large datasets having comparably numerous samples and features. To relax this restrictive assumption, subsequent efforts have been devoted to establish "Gaussian equivalent principles" by studying scenarios of Gaussian universality where the asymptotic performance of ML methods on non-Gaussian data remains unchanged when replaced with Gaussian data having the same mean and covariance. Beyond the realm of Gaussian universality, there are few exact results on how the data distribution affects the learning performance. In this article, we provide a precise high-dimensional characterization of empirical risk minimization, for classification under a general mixture data setting of linear factor models that extends Gaussian mixtures. The Gaussian universality is shown to break down under this setting, in the sense that the asymptotic learning performance depends on the data distribution beyond the class means and covariances. To clarify the limitations of Gaussian universality in classification of mixture data and to understand the impact of its breakdown, we specify conditions for Gaussian universality and discuss their implications for the choice of loss function.
- Abstract(参考訳): ガウシアンまたはガウシアン混合データの仮定は、多数のサンプルと特徴を持つ大規模データセット上で、機械学習(ML)手法の一連の正確な性能解析において、広範囲に利用されてきた。
この制限的な仮定を緩和するために、その後の努力は、非ガウス的データに対するML手法の漸近的な性能が、同じ平均と共分散を持つガウス的データに置き換えられたときに変化しないガウス的普遍性のシナリオを研究することで「ガウス的同値原理」を確立することに費やされている。
ガウスの普遍性の領域以外にも、データ分布が学習性能にどのように影響するかに関する正確な結果はほとんどない。
本稿では,ガウス混合を拡張した線形因子モデルの一般混合データ設定に基づく分類において,経験的リスク最小化の高精度な高次元評価を行う。
ガウスの普遍性は、漸近的学習性能がクラス平均と共分散を超えたデータ分布に依存するという意味で、この設定の下で崩壊することが示されている。
混合データの分類におけるガウス普遍性の限界を明確にし、その分解の影響を理解するために、ガウス普遍性の条件を規定し、損失関数の選択におけるガウス普遍性の意義について議論する。
関連論文リスト
- Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Gaussian Universality of Linear Classifiers with Random Labels in
High-Dimension [24.503842578208268]
高次元における生成モデルから得られるデータは、ガウスデータと対応するデータ共分散の最小限の訓練損失を持つことを示す。
特に,同質なガウス雲と多モード生成ニューラルネットワークの任意の混合によって生成されたデータについて述べる。
論文 参考訳(メタデータ) (2022-05-26T12:25:24Z) - Gaussian Graphical Models as an Ensemble Method for Distributed Gaussian
Processes [8.4159776055506]
我々はガウスの専門家の予測をガウス図形モデル(GGM)により集約する新しいアプローチを提案する。
まず、予測最大化(EM)アルゴリズムを用いて、潜伏変数と観測変数の合同分布を推定する。
我々の新しい手法は他の最先端のDGP手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-07T15:22:56Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Fitting Laplacian Regularized Stratified Gaussian Models [0.0]
データから複数の関連するゼロ平均ガウス分布を共同推定する問題を考察する。
本稿では,大規模な問題にスケールする分散手法を提案するとともに,金融,レーダ信号処理,天気予報などの手法の有効性について述べる。
論文 参考訳(メタデータ) (2020-05-04T18:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。