論文の概要: Statistical exploration of the Manifold Hypothesis
- arxiv url: http://arxiv.org/abs/2208.11665v3
- Date: Mon, 4 Dec 2023 15:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:42:23.791854
- Title: Statistical exploration of the Manifold Hypothesis
- Title(参考訳): マニフォールド仮説の統計的探索
- Authors: Nick Whiteley, Annie Gray, Patrick Rubin-Delanchy
- Abstract要約: マニフォールド仮説は、名目上高次元データは、高次元空間に埋め込まれた低次元多様体の近くに実際に集中していると主張している。
データのリッチかつ複雑な多様体構造が、汎用的かつ驚くほど単純な統計モデルから生まれることを示す。
我々は、高次元データの幾何学を発見し、解釈する手順を導出し、データ生成機構に関する仮説を探求する。
- 参考スコア(独自算出の注目度): 10.389701595098922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Manifold Hypothesis is a widely accepted tenet of Machine Learning which
asserts that nominally high-dimensional data are in fact concentrated near a
low-dimensional manifold, embedded in high-dimensional space. This phenomenon
is observed empirically in many real world situations, has led to development
of a wide range of statistical methods in the last few decades, and has been
suggested as a key factor in the success of modern AI technologies. We show
that rich and sometimes intricate manifold structure in data can emerge from a
generic and remarkably simple statistical model -- the Latent Metric Model --
via elementary concepts such as latent variables, correlation and stationarity.
This establishes a general statistical explanation for why the Manifold
Hypothesis seems to hold in so many situations. Informed by the Latent Metric
Model we derive procedures to discover and interpret the geometry of
high-dimensional data, and explore hypotheses about the data generating
mechanism. These procedures operate under minimal assumptions and make use of
well known, scaleable graph-analytic algorithms.
- Abstract(参考訳): 多様体仮説は機械学習において広く受け入れられている理論であり、名目上高次元データは実際には高次元空間に埋め込まれた低次元多様体の近くに集中していると主張する。
この現象は多くの現実世界の状況で実証的に観察され、ここ数十年で幅広い統計手法が開発され、現代のAI技術の成功の重要な要因として示唆されている。
データのリッチかつ複雑な多様体構造は、潜在変数、相関、定常性といった基本的な概念によって、総称的かつ驚くほど単純な統計モデル(潜在計量モデル)から生じうることを示す。
このことは、なぜマニフォールド仮説がこれほど多くの状況で成り立つのかという一般的な統計的説明を確立している。
潜在計量モデルによってインフォームドされ、高次元データの幾何学を発見し解釈し、データ生成機構に関する仮説を探求する手順を導出する。
これらの手順は最小限の仮定の下で動作し、よく知られたスケール可能なグラフ解析アルゴリズムを利用する。
関連論文リスト
- A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - Emerging-properties Mapping Using Spatial Embedding Statistics: EMUSES [0.0]
EMUSESは、データ内の潜伏構造を明らかにする高次元埋め込みを作成する革新的なアプローチである。
予測精度と解釈可能性のギャップを埋めることで、EMUSESは複雑な現象の多因子的起源を理解する強力なツールを提供する。
論文 参考訳(メタデータ) (2024-06-20T13:39:14Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - A Multivariate Unimodality Test Harnessing the Dip Statistic of Mahalanobis Distances Over Random Projections [0.18416014644193066]
線形ランダムプロジェクションとポイント・ツー・ポイント・ディスタンシングにより、一次元の一様性原理を多次元空間に拡張する。
我々の手法は$alpha$-unimodalityの仮定に根ざし、泥ッドと呼ばれる新しい一様性試験を提示する。
理論的および実証的研究は,多次元データセットの一様性評価における本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-11-28T09:11:02Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Information-theoretic limits of a multiview low-rank symmetric spiked
matrix model [19.738567726658875]
我々は、高次元推論問題の重要なクラス、すなわちスパイクされた対称行列モデルの一般化を考える。
シングルレター公式の証明を通じて情報理論の限界を厳格に確立する。
我々は最近導入された適応手法を改良し、低ランクモデルの研究に利用できるようにした。
論文 参考訳(メタデータ) (2020-05-16T15:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。