論文の概要: Intrinsic Dimension for Large-Scale Geometric Learning
- arxiv url: http://arxiv.org/abs/2210.05301v2
- Date: Mon, 17 Apr 2023 11:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:07:10.675939
- Title: Intrinsic Dimension for Large-Scale Geometric Learning
- Title(参考訳): 大規模幾何学学習のための内在次元
- Authors: Maximilian Stubbemann, Tom Hanika, Friedrich Martin Schneider
- Abstract要約: データセットの次元を決定するための単純なアプローチは、属性の数に基づいています。
より洗練された手法は、より複雑な特徴関数を用いる内在次元(ID)の概念を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The concept of dimension is essential to grasp the complexity of data. A
naive approach to determine the dimension of a dataset is based on the number
of attributes. More sophisticated methods derive a notion of intrinsic
dimension (ID) that employs more complex feature functions, e.g., distances
between data points. Yet, many of these approaches are based on empirical
observations, cannot cope with the geometric character of contemporary
datasets, and do lack an axiomatic foundation. A different approach was
proposed by V. Pestov, who links the intrinsic dimension axiomatically to the
mathematical concentration of measure phenomenon. First methods to compute this
and related notions for ID were computationally intractable for large-scale
real-world datasets. In the present work, we derive a computationally feasible
method for determining said axiomatic ID functions. Moreover, we demonstrate
how the geometric properties of complex data are accounted for in our modeling.
In particular, we propose a principle way to incorporate neighborhood
information, as in graph data, into the ID. This allows for new insights into
common graph learning procedures, which we illustrate by experiments on the
Open Graph Benchmark.
- Abstract(参考訳): 次元の概念はデータの複雑さを理解するために不可欠である。
データセットの次元を決定するためのナイーブなアプローチは、属性の数に基づいています。
より洗練された手法は、データポイント間の距離など、より複雑な特徴関数を用いる内在次元(ID)の概念を導出する。
しかし、これらのアプローチの多くは経験的観察に基づいており、現代のデータセットの幾何学的特徴に対応できず、公理的な基礎を欠いている。
別のアプローチがV. Pestovによって提案され、彼は内在次元を公理的に測度現象の数学的集中と結びつけた。
これを計算する最初の方法と関連するidの概念は、大規模な実世界のデータセットでは計算が難しかった。
本研究は,その公理的ID関数を決定するための計算可能な手法を導出する。
さらに、複雑なデータの幾何学的性質がモデリングにおいてどのように説明されるかを示す。
特に、グラフデータのような近隣情報をidに組み込むための原則的な方法を提案する。
これにより,共通グラフ学習手順に対する新たな洞察が得られます。
関連論文リスト
- Score-based pullback Riemannian geometry [10.649159213723106]
本稿では,データ駆動型リーマン幾何学のフレームワークを提案する。
データサポートを通して高品質な測地学を作成し、データ多様体の固有次元を確実に推定する。
我々のフレームワークは、訓練中に等方性正規化を採用することで、自然に異方性正規化フローで使用することができる。
論文 参考訳(メタデータ) (2024-10-02T18:52:12Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - A geometric framework for outlier detection in high-dimensional data [0.0]
異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-07-01T12:07:51Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Optimal radial basis for density-based atomic representations [58.720142291102135]
データセットの構造的多様性を最も効率的に表現するために選択される適応的で最適な数値ベースを構築する方法について議論します。
トレーニングデータセットごとに、この最適なベースはユニークで、プリミティブベースに関して追加のコストなしで計算することができる。
この構成が精度と計算効率のよい表現をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-05-18T17:57:08Z) - Hermitian Symmetric Spaces for Graph Embeddings [0.0]
C 上の対称行列空間におけるグラフの連続表現を学ぶ。
これらの空間は双曲部分空間とユークリッド部分空間を同時に認めるリッチな幾何学を提供する。
提案するモデルは, apriori のグラフ特徴を見積もることなく, まったく異なる配置に自動的に適応することができる。
論文 参考訳(メタデータ) (2021-05-11T18:14:52Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。