論文の概要: Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art
- arxiv url: http://arxiv.org/abs/2502.05575v1
- Date: Sat, 08 Feb 2025 14:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:05.566073
- Title: Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art
- Title(参考訳): グラフベースベクトル探索:現状の実験的評価
- Authors: Ilias Azizi, Karima Echihabi, Themis Palpanas,
- Abstract要約: 我々は,7つの実データ収集に対して,最大10億個のベクトルで12種類の最先端手法を実験的に評価する。
これらの手法の強みと限界に関する重要な洞察を共有します。
我々は、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
- 参考スコア(独自算出の注目度): 12.125503552019508
- License:
- Abstract: Vector data is prevalent across business and scientific applications, and its popularity is growing with the proliferation of learned embeddings. Vector data collections often reach billions of vectors with thousands of dimensions, thus, increasing the complexity of their analysis. Vector search is the backbone of many critical analytical tasks, and graph-based methods have become the best choice for analytical tasks that do not require guarantees on the quality of the answers. We briefly survey in-memory graph-based vector search, outline the chronology of the different methods and classify them according to five main design paradigms: seed selection, incremental insertion, neighborhood propagation, neighborhood diversification, and divide-and-conquer. We conduct an exhaustive experimental evaluation of twelve state-of-the-art methods on seven real data collections, with sizes up to 1 billion vectors. We share key insights about the strengths and limitations of these methods; e.g., the best approaches are typically based on incremental insertion and neighborhood diversification, and the choice of the base graph can hurt scalability. Finally, we discuss open research directions, such as the importance of devising more sophisticated data-adaptive seed selection and diversification strategies.
- Abstract(参考訳): ベクトルデータは、ビジネスや科学の応用で広く使われており、その人気は、学習された埋め込みの普及と共に高まっている。
ベクトルデータ収集は数千次元の数十億のベクトルに到達し、解析の複雑さを増大させる。
ベクトル探索は多くの重要な分析タスクのバックボーンであり、グラフベースの手法は、回答の品質の保証を必要としない分析タスクにとって最良の選択肢となっている。
インメモリグラフに基づくベクトル探索を手短に調査し、各手法の時系列を概説し、種選択、インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタル、近所の伝播、近隣の多様化、配当および配当の5つの主要な設計パラダイムに従って分類する。
我々は,最大10億ベクトルの7つの実データ収集に対して,12の最先端手法を徹底的に評価した。
例えば、最良のアプローチはインクリメンタルな挿入と近隣の多様化に基づいており、ベースグラフの選択はスケーラビリティを損なう可能性がある。
最後に、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
関連論文リスト
- A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。
提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文 参考訳(メタデータ) (2022-09-15T20:41:18Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - A Comprehensive Analytical Survey on Unsupervised and Semi-Supervised
Graph Representation Learning Methods [4.486285347896372]
本調査は,グラフ埋め込み手法のすべての主要なクラスを評価することを目的としている。
我々は,手動の特徴工学,行列分解,浅部ニューラルネットワーク,深部グラフ畳み込みネットワークなどの手法を含む分類学を用いてグラフ埋め込み手法を編成した。
我々はPyTorch GeometricおよびDGLライブラリ上で実験を設計し、異なるマルチコアCPUおよびGPUプラットフォーム上で実験を行った。
論文 参考訳(メタデータ) (2021-12-20T07:50:26Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。
次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。
最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文 参考訳(メタデータ) (2020-08-07T05:18:58Z) - Semi-supervised Vector-valued Learning: Improved Bounds and Algorithms [20.53130700587322]
カーネルの観点と線形視点の両方から一般ベクトル値学習のための新しい半教師付き過剰リスク境界を導出する。
理論解析により,ベクトル値関数を効率的に学習するための一般半教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2019-09-11T07:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。