論文の概要: Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art
- arxiv url: http://arxiv.org/abs/2502.05575v1
- Date: Sat, 08 Feb 2025 14:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:05.566073
- Title: Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art
- Title(参考訳): グラフベースベクトル探索:現状の実験的評価
- Authors: Ilias Azizi, Karima Echihabi, Themis Palpanas,
- Abstract要約: 我々は,7つの実データ収集に対して,最大10億個のベクトルで12種類の最先端手法を実験的に評価する。
これらの手法の強みと限界に関する重要な洞察を共有します。
我々は、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
- 参考スコア(独自算出の注目度): 12.125503552019508
- License:
- Abstract: Vector data is prevalent across business and scientific applications, and its popularity is growing with the proliferation of learned embeddings. Vector data collections often reach billions of vectors with thousands of dimensions, thus, increasing the complexity of their analysis. Vector search is the backbone of many critical analytical tasks, and graph-based methods have become the best choice for analytical tasks that do not require guarantees on the quality of the answers. We briefly survey in-memory graph-based vector search, outline the chronology of the different methods and classify them according to five main design paradigms: seed selection, incremental insertion, neighborhood propagation, neighborhood diversification, and divide-and-conquer. We conduct an exhaustive experimental evaluation of twelve state-of-the-art methods on seven real data collections, with sizes up to 1 billion vectors. We share key insights about the strengths and limitations of these methods; e.g., the best approaches are typically based on incremental insertion and neighborhood diversification, and the choice of the base graph can hurt scalability. Finally, we discuss open research directions, such as the importance of devising more sophisticated data-adaptive seed selection and diversification strategies.
- Abstract(参考訳): ベクトルデータは、ビジネスや科学の応用で広く使われており、その人気は、学習された埋め込みの普及と共に高まっている。
ベクトルデータ収集は数千次元の数十億のベクトルに到達し、解析の複雑さを増大させる。
ベクトル探索は多くの重要な分析タスクのバックボーンであり、グラフベースの手法は、回答の品質の保証を必要としない分析タスクにとって最良の選択肢となっている。
インメモリグラフに基づくベクトル探索を手短に調査し、各手法の時系列を概説し、種選択、インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタル、近所の伝播、近隣の多様化、配当および配当の5つの主要な設計パラダイムに従って分類する。
我々は,最大10億ベクトルの7つの実データ収集に対して,12の最先端手法を徹底的に評価した。
例えば、最良のアプローチはインクリメンタルな挿入と近隣の多様化に基づいており、ベースグラフの選択はスケーラビリティを損なう可能性がある。
最後に、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
関連論文リスト
- Out-of-Distribution Detection on Graphs: A Survey [58.47395497985277]
グラフアウト・オブ・ディストリビューション(GOOD)検出は、トレーニング中に見られる分布から逸脱するグラフデータを特定することに焦点を当てる。
既存の手法を,拡張ベース,再構築ベース,情報伝達ベース,分類ベースという4つのタイプに分類する。
本稿では,グラフデータによるユニークな課題を浮き彫りにして,実践的応用と理論的基礎について論じる。
論文 参考訳(メタデータ) (2025-02-12T04:07:12Z) - Winners with Confidence: Discrete Argmin Inference with an Application to Model Selection [11.62889979871371]
本研究では,ベクトル雑音観測の最小値の指標を求める問題について検討する。
この問題は、人口/政治比較、離散的最大可能性、モデル選択に関係している。
我々は,高次元設定においても,異常な正常なテスト統計を発達させる。
論文 参考訳(メタデータ) (2024-08-04T15:20:23Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。
提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文 参考訳(メタデータ) (2022-09-15T20:41:18Z) - A Comprehensive Analytical Survey on Unsupervised and Semi-Supervised
Graph Representation Learning Methods [4.486285347896372]
本調査は,グラフ埋め込み手法のすべての主要なクラスを評価することを目的としている。
我々は,手動の特徴工学,行列分解,浅部ニューラルネットワーク,深部グラフ畳み込みネットワークなどの手法を含む分類学を用いてグラフ埋め込み手法を編成した。
我々はPyTorch GeometricおよびDGLライブラリ上で実験を設計し、異なるマルチコアCPUおよびGPUプラットフォーム上で実験を行った。
論文 参考訳(メタデータ) (2021-12-20T07:50:26Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。
次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。
最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文 参考訳(メタデータ) (2020-08-07T05:18:58Z) - Semi-supervised Vector-valued Learning: Improved Bounds and Algorithms [20.53130700587322]
カーネルの観点と線形視点の両方から一般ベクトル値学習のための新しい半教師付き過剰リスク境界を導出する。
理論解析により,ベクトル値関数を効率的に学習するための一般半教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2019-09-11T07:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。