論文の概要: Dissecting embedding method: learning higher-order structures from data
- arxiv url: http://arxiv.org/abs/2410.10917v1
- Date: Mon, 14 Oct 2024 08:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:52.885061
- Title: Dissecting embedding method: learning higher-order structures from data
- Title(参考訳): 分割埋め込み法--データから高次構造を学習する
- Authors: Liubov Tupikina, Kathuria Hritika,
- Abstract要約: データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Active area of research in AI is the theory of manifold learning and finding lower-dimensional manifold representation on how we can learn geometry from data for providing better quality curated datasets. There are however various issues with these methods related to finding low-dimensional representation of the data, the so-called curse of dimensionality. Geometric deep learning methods for data learning often include set of assumptions on the geometry of the feature space. Some of these assumptions include pre-selected metrics on the feature space, usage of the underlying graph structure, which encodes the data points proximity. However, the later assumption of using a graph as the underlying discrete structure, encodes only the binary pairwise relations between data points, restricting ourselves from capturing more complex higher-order relationships, which are often often present in various systems. These assumptions together with data being discrete and finite can cause some generalisations, which are likely to create wrong interpretations of the data and models outputs. Hence overall this can cause wrong outputs of the embedding models themselves, while these models being quite and trained on large corpora of data, such as BERT, Yi and other similar models.The objective of our research is twofold, first, it is to develop the alternative framework to characterize the embedding methods dissecting their possible inconsistencies using combinatorial approach of higher-order structures which encode the embedded data. Second objective is to explore the assumption of the underlying structure of embeddings to be graphs, substituting it with the hypergraph and using the hypergraph theory to analyze this structure. We also demonstrate the embedding characterization on the usecase of the arXiv data.
- Abstract(参考訳): AIにおける活発な研究領域は、より高品質なキュレートされたデータセットを提供するために、データから幾何学を学習する方法について、多様体学習の理論と低次元の多様体表現を見つけることである。
しかし、これらの手法には、次元性の呪いと呼ばれる、データの低次元表現の発見に関連する様々な問題がある。
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定のいくつかは、特徴空間に関する事前選択されたメトリクス、基礎となるグラフ構造の使用、データポイントの近接を符号化する。
しかし、グラフを基礎となる離散構造として使うという後の仮定は、データポイント間の二対関係のみを符号化し、しばしば様々なシステムにしばしば存在するより複雑な高次関係を捉えることを制限している。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
本研究の目的は, 組込みモデル自体の誤った出力を生じる可能性があるが, これらのモデルは, BERT, Yi などの大規模コーパスで十分に訓練されており, まず, 組込みモデルを符号化する高次構造の組合せ的アプローチを用いて, 不整合を識別する代替フレームワークを開発することである。
第二の目的は、埋め込みの基盤となる構造がグラフであると仮定し、それをハイパーグラフに置換し、ハイパーグラフ理論を用いてこの構造を分析することである。
また、arXivデータのユースケースに埋め込み特性を示す。
関連論文リスト
- Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding [51.75091298017941]
本稿では,属性付きグラフデータに対する新しいDeep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE)を提案する。
提案手法は,最先端のベースラインアルゴリズムを,一般的なデータセット間でのダウンストリームタスクの差を大きく越える。
論文 参考訳(メタデータ) (2024-01-12T17:57:07Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。
提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。
第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文 参考訳(メタデータ) (2022-12-01T11:49:07Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Study of Manifold Geometry using Multiscale Non-Negative Kernel Graphs [32.40622753355266]
データの幾何学的構造を研究するための枠組みを提案する。
我々は最近導入された非負のカーネル回帰グラフを用いて、点密度、固有次元、およびデータ多様体(曲率)の線型性を推定する。
論文 参考訳(メタデータ) (2022-10-31T17:01:17Z) - A geometric framework for outlier detection in high-dimensional data [0.0]
異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-07-01T12:07:51Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Learning to Learn Graph Topologies [27.782971146122218]
ノードデータからグラフ構造へのマッピングを学習する(L2O)。
このモデルは、ノードデータとグラフサンプルのペアを使ってエンドツーエンドでトレーニングされる。
合成データと実世界のデータの両方の実験により、我々のモデルは、特定のトポロジ特性を持つグラフを学習する際の古典的反復アルゴリズムよりも効率的であることが示された。
論文 参考訳(メタデータ) (2021-10-19T08:42:38Z) - Topologically Regularized Data Embeddings [22.222311627054875]
本稿では,新たにトポロジ的損失の集合を導入し,その利用法を,データ埋め込みを自然に特定したモデルを表現するために,トポロジカルに正規化する方法として提案する。
このアプローチの有用性と汎用性を強調した合成データおよび実データの実験を含む。
論文 参考訳(メタデータ) (2021-10-18T11:25:47Z) - Community detection, pattern recognition, and hypergraph-based learning:
approaches using metric geometry and persistent homology [1.3477333339913569]
我々は,通常の距離空間構造に類似した新しいトポロジ構造をハイパーグラフデータに導入する。
ハイパーグラフデータの新しいトポロジ的空間構造を用いて,コミュニティ検出問題を研究するためのいくつかのアプローチを提案する。
次に,提案手法を用いて構築したハイプグラフデータにおける符号予測問題について検討する。
論文 参考訳(メタデータ) (2020-09-29T21:20:12Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。