論文の概要: OPDR: Order-Preserving Dimension Reduction for Semantic Embedding of Multimodal Scientific Data
- arxiv url: http://arxiv.org/abs/2408.10264v1
- Date: Thu, 15 Aug 2024 22:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 18:28:07.449347
- Title: OPDR: Order-Preserving Dimension Reduction for Semantic Embedding of Multimodal Scientific Data
- Title(参考訳): OPDR:マルチモーダル科学データのセマンティック埋め込みのための順序保存次元削減
- Authors: Chengyu Gong, Gefei Shen, Luanzheng Guo, Nathan Tallent, Dongfang Zhao,
- Abstract要約: マルチモーダルな科学データ管理における最も一般的な操作の1つは、$k$の類似アイテムを探すことである。
結果として得られる埋め込みベクトルの次元は、通常数百から数千のオーダーであり、時間に敏感な科学的応用には不可分に高い。
この研究は、出力埋め込みベクトルの次元性を減らし、トップ=k$近辺の集合が低次元空間において変化しないようにすることを提案する。
- 参考スコア(独自算出の注目度): 0.888375168590583
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the most common operations in multimodal scientific data management is searching for the $k$ most similar items (or, $k$-nearest neighbors, KNN) from the database after being provided a new item. Although recent advances of multimodal machine learning models offer a \textit{semantic} index, the so-called \textit{embedding vectors} mapped from the original multimodal data, the dimension of the resulting embedding vectors are usually on the order of hundreds or a thousand, which are impractically high for time-sensitive scientific applications. This work proposes to reduce the dimensionality of the output embedding vectors such that the set of top-$k$ nearest neighbors do not change in the lower-dimensional space, namely Order-Preserving Dimension Reduction (OPDR). In order to develop such an OPDR method, our central hypothesis is that by analyzing the intrinsic relationship among key parameters during the dimension-reduction map, a quantitative function may be constructed to reveal the correlation between the target (lower) dimensionality and other variables. To demonstrate the hypothesis, this paper first defines a formal measure function to quantify the KNN similarity for a specific vector, then extends the measure into an aggregate accuracy of the global metric spaces, and finally derives a closed-form function between the target (lower) dimensionality and other variables. We incorporate the closed-function into popular dimension-reduction methods, various distance metrics, and embedding models.
- Abstract(参考訳): マルチモーダルな科学データ管理における最も一般的な操作の1つは、新しいアイテムが提供された後、データベースから最もよく似たアイテム(または、$k$-nearest neighbors, KNN)を探すことである。
マルチモーダル機械学習モデルの最近の進歩は、もともとのマルチモーダルデータからマッピングされたいわゆる‘textit{embedding vectors’のインデックスを提供するが、結果として得られる埋め込みベクトルの次元は通常数百から1000のオーダーであり、これは時間に敏感な科学的応用には極端に高い。
本研究は,次数保存次元減少(OPDR, Order-Preserving Dimension Reduction)という低次元空間において,最上位のk$近傍の集合が変化しないような出力埋め込みベクトルの次元性を低減することを提案する。
このようなOPDR法を開発するためには,主パラメータ間の主パラメータ間の内在的関係を次元還元マップで解析することにより,対象(下方)次元と他の変数との相関関係を明らかにする定量的関数を構築する必要がある。
この仮説を実証するために、まず特定のベクトルに対するKNN類似性を定量化するための形式的測度関数を定義し、次にその測度を大域距離空間の集合的精度に拡張し、最終的にターゲット(より低い)次元と他の変数の間の閉形式関数を導出する。
閉関数を一般的な次元還元法、様々な距離測度、埋め込みモデルに組み込む。
関連論文リスト
- Hyperboloid GPLVM for Discovering Continuous Hierarchies via Nonparametric Estimation [41.13597666007784]
次元性低減(DR)は複雑な高次元データの有用な表現を提供する。
最近のDR法は、階層データの忠実な低次元表現を導出する双曲幾何学に焦点を当てている。
本稿では,非パラメトリック推定による暗黙的な連続性を持つ高次元階層データを埋め込むためのhGP-LVMを提案する。
論文 参考訳(メタデータ) (2024-10-22T05:07:30Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - Canonical normalizing flows for manifold learning [14.377143992248222]
そこで本研究では,新しい目的によって変換行列を強制し,顕著で非退化的な基底関数をほとんど持たない正準多様体学習フロー法を提案する。
正準多様体の流れは潜在空間をより効率的に利用し、データを表現するために顕著で異なる次元を自動生成する。
論文 参考訳(メタデータ) (2023-10-19T13:48:05Z) - Bayesian Hyperbolic Multidimensional Scaling [2.5944208050492183]
低次元多様体が双曲型であるとき、多次元スケーリングに対するベイズ的アプローチを提案する。
ケース制御可能性近似は、より大きなデータ設定における後部分布からの効率的なサンプリングを可能にする。
提案手法は,シミュレーション,標準基準データセット,インディアン村のネットワークデータ,およびヒトの遺伝子発現データを用いて,最先端の代替手法に対して評価する。
論文 参考訳(メタデータ) (2022-10-26T23:34:30Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z) - Information-Theoretic Limits for the Matrix Tensor Product [8.206394018475708]
本稿では,ランダム行列の行列テンソル積を含む高次元推論問題について検討する。
本稿では,高次元行列保存信号の解析のための新しい手法を紹介する。
論文 参考訳(メタデータ) (2020-05-22T17:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。