論文の概要: Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space
- arxiv url: http://arxiv.org/abs/2410.05752v1
- Date: Tue, 8 Oct 2024 07:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:09:48.727700
- Title: Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space
- Title(参考訳): 高次元空間における最近傍探索の意義を探る
- Authors: Zhonghan Chen, Ruiyuan Zhang, Xi Zhao, Xiaojun Cheng, Xiaofang Zhou,
- Abstract要約: コンピュータビジョン、機械学習、大規模言語モデル(LLM)などの分野において「高次元ベクトル」がますます重要になっている。
これらの高次元ベクトルに対して最も近い近接探索(NNS)にもかかわらず、検索拡張生成(RAG)やその他の多くの用途に広く用いられている。
本研究は,埋め込み型データ表現法の有効性を示し,高密度ベクトル関連アプリケーションのさらなる最適化の機会を提供する。
- 参考スコア(独自算出の注目度): 11.006299554632461
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense high dimensional vectors are becoming increasingly vital in fields such as computer vision, machine learning, and large language models (LLMs), serving as standard representations for multimodal data. Now the dimensionality of these vector can exceed several thousands easily. Despite the nearest neighbor search (NNS) over these dense high dimensional vectors have been widely used for retrieval augmented generation (RAG) and many other applications, the effectiveness of NNS in such a high-dimensional space remains uncertain, given the possible challenge caused by the "curse of dimensionality." To address above question, in this paper, we conduct extensive NNS studies with different distance functions, such as $L_1$ distance, $L_2$ distance and angular-distance, across diverse embedding datasets, of varied types, dimensionality and modality. Our aim is to investigate factors influencing the meaningfulness of NNS. Our experiments reveal that high-dimensional text embeddings exhibit increased resilience as dimensionality rises to higher levels when compared to random vectors. This resilience suggests that text embeddings are less affected to the "curse of dimensionality," resulting in more meaningful NNS outcomes for practical use. Additionally, the choice of distance function has minimal impact on the relevance of NNS. Our study shows the effectiveness of the embedding-based data representation method and can offer opportunity for further optimization of dense vector-related applications.
- Abstract(参考訳): コンピュータビジョン、機械学習、大規模言語モデル(LLM)といった分野において、高次元ベクトルはますます重要になってきており、マルチモーダルデータの標準表現として機能している。
現在、これらのベクトルの次元性は容易に数千を超えることができる。
これらの高次元ベクトルに対する近接探索(NNS)は、検索拡張生成(RAG)や他の多くの応用に広く用いられているが、「次元の曲線」によって引き起こされる可能性のある問題を考えると、そのような高次元空間におけるNSの有効性は依然として不明である。
上記の問題に対処するため、我々は様々な種類の埋め込みデータセットにまたがる距離関数(例えば$L_1$ distance,$L_2$ distance, and angular-distance)を用いて広範囲にわたるNNS研究を行っている。
本研究の目的は,NNSの意義に影響を及ぼす要因を検討することである。
実験の結果, 高次元テキスト埋め込みは, ランダムベクトルと比較して次元が高レベルになるにつれてレジリエンスが向上することがわかった。
このレジリエンスは、テキストの埋め込みが「次元の帰結」の影響を弱め、実践的により有意義なNNS結果をもたらすことを示唆している。
さらに、距離関数の選択は、NNSの関連性に最小限の影響を与える。
本研究は,埋め込み型データ表現法の有効性を示し,高密度ベクトル関連アプリケーションのさらなる最適化の機会を提供する。
関連論文リスト
- GleanVec: Accelerating vector search with minimalist nonlinear dimensionality reduction [1.1599570446840546]
クロスモーダル検索(例えば、画像を見つけるためにテキストクエリを使用する)は急速に勢いを増している。
クエリはデータベースベクトルとは異なる統計分布を持つことが多いため、高い精度を達成することは困難である。
本稿では,高次元ベクトル探索を高速化するために,次元削減のための線形非線形手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:14:27Z) - Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用
我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。
そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文 参考訳(メタデータ) (2024-02-06T15:34:44Z) - Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect [0.6906005491572401]
まず,高次元データの操作に関する5つの課題を要約する。
次に、次元、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解することができる。
論文 参考訳(メタデータ) (2023-12-31T08:22:51Z) - From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport [32.39176908225668]
本稿では,DNNの非線形性シグネチャの概念を紹介する。これはディープニューラルネットワークの非線形性を測定するための,理論上初めての音響解である。
提案した非線形署名の実用性を明らかにするための実験結果について述べる。
論文 参考訳(メタデータ) (2023-10-17T17:50:22Z) - Learning in latent spaces improves the predictive accuracy of deep
neural operators [0.0]
L-DeepONetは標準のDeepONetの拡張であり、高次元PDE入力の潜在表現と適切なオートエンコーダで識別される出力関数を利用する。
L-DeepONetは時間依存PDEの精度と計算効率の両面で標準手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-15T17:13:09Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - UnProjection: Leveraging Inverse-Projections for Visual Analytics of
High-Dimensional Data [63.74032987144699]
提案するNNInvは,プロジェクションやマッピングの逆を近似する深層学習技術である。
NNInvは、2次元投影空間上の任意の点から高次元データを再構成することを学び、ユーザーは視覚分析システムで学習した高次元表現と対話することができる。
論文 参考訳(メタデータ) (2021-11-02T17:11:57Z) - Pure Exploration in Kernel and Neural Bandits [90.23165420559664]
我々は、特徴表現の次元が腕の数よりもはるかに大きい帯域における純粋な探索について研究する。
そこで本研究では,各アームの特徴表現を低次元空間に適応的に埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T19:51:59Z) - Deep Representational Similarity Learning for analyzing neural
signatures in task-based fMRI dataset [81.02949933048332]
本稿では、表現類似度分析(RSA)の深部拡張であるDRSL(Deep Representational similarity Learning)を開発する。
DRSLは、多数の被験者を持つfMRIデータセットにおける様々な認知タスク間の類似性を分析するのに適している。
論文 参考訳(メタデータ) (2020-09-28T18:30:14Z) - SOLAR: Sparse Orthogonal Learned and Random Embeddings [45.920844071257754]
我々は,高次元および超スパース埋め込みが,クエリ効率と精度の両面において,高密度な低次元埋め込みよりもはるかに優れていると論じている。
我々は,最大3つの公開データセット上で1.6万冊の書籍を検索し,複数ラベルの分類を行うタスクに対して,500K次元のSOLAR埋め込みを訓練する。
それぞれのタスクに対して,最大10倍の高速さで,各タスクの最先端のベースラインと比較して,精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2020-08-30T17:35:35Z) - NCVis: Noise Contrastive Approach for Scalable Visualization [79.44177623781043]
NCVisはノイズコントラスト推定の音響統計的基礎の上に構築された高性能次元減少法である。
NCVisは,他の手法の表現品質を保ちながら,速度の観点から最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-30T15:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。