論文の概要: Toward Efficient and Scalable Design of In-Memory Graph-Based Vector Search
- arxiv url: http://arxiv.org/abs/2509.05750v1
- Date: Sat, 06 Sep 2025 15:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.689152
- Title: Toward Efficient and Scalable Design of In-Memory Graph-Based Vector Search
- Title(参考訳): インメモリグラフに基づくベクトル探索の効率的かつスケーラブルな設計に向けて
- Authors: Ilias Azizi, Karima Echihab, Themis Palpanas, Vassilis Christophides,
- Abstract要約: 12種類のグラフに基づくベクトル探索アルゴリズムを実験的に評価する。
これらの手法の強みと限界に関する重要な洞察を共有します。
我々は、より高度なデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
- 参考スコア(独自算出の注目度): 9.411318148463872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector data is prevalent across business and scientific applications, and its popularity is growing with the proliferation of learned embeddings. Vector data collections often reach billions of vectors with thousands of dimensions, thus, increasing the complexity of their analysis. Vector search is the backbone of many critical analytical tasks, and graph-based methods have become the best choice for analytical tasks that do not require guarantees on the quality of the answers. Although several paradigms (seed selection, incremental insertion, neighborhood propagation, neighborhood diversification, and divide-and-conquer) have been employed to design in-memory graph-based vector search algorithms, a systematic comparison of the key algorithmic advances is still missing. We conduct an exhaustive experimental evaluation of twelve state-of-the-art methods on seven real data collections, with sizes up to 1 billion vectors. We share key insights about the strengths and limitations of these methods; e.g., the best approaches are typically based on incremental insertion and neighborhood diversification, and the choice of the base graph can hurt scalability. Finally, we discuss open research directions, such as the importance of devising more sophisticated data adaptive seed selection and diversification strategies.
- Abstract(参考訳): ベクトルデータは、ビジネスや科学の応用で広く使われており、その人気は、学習された埋め込みの普及と共に高まっている。
ベクトルデータ収集は数千次元の数十億のベクトルに到達し、解析の複雑さを増大させる。
ベクトル探索は多くの重要な分析タスクのバックボーンであり、グラフベースの手法は、回答の品質の保証を必要としない分析タスクにとって最良の選択肢となっている。
いくつかのパラダイム(シードセレクション、インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタル、近所の多様化、分割・アンド・コンカスタ)がインメモリグラフベースのベクトル探索アルゴリズムの設計に使われてきたが、重要なアルゴリズムの進歩の体系的比較はいまだに欠けている。
我々は,最大10億ベクトルの7つの実データ収集に対して,12の最先端手法を徹底的に評価した。
例えば、最良のアプローチはインクリメンタルな挿入と近隣の多様化に基づいており、ベースグラフの選択はスケーラビリティを損なう可能性がある。
最後に、より高度なデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
関連論文リスト
- Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art [7.859729554664894]
我々は,7つの実データ収集に対して,最大10億個のベクトルで12種類の最先端手法を実験的に評価する。
これらの手法の強みと限界に関する重要な洞察を共有します。
我々は、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
論文 参考訳(メタデータ) (2025-02-08T14:03:43Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。
提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文 参考訳(メタデータ) (2022-09-15T20:41:18Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。
次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。
最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文 参考訳(メタデータ) (2020-08-07T05:18:58Z) - Similarity Search for Efficient Active Learning and Search of Rare
Concepts [78.5475382904847]
我々は,現在ラベル付けされている集合の近傍にラベル付けする候補プールを制限することにより,能動的学習と探索法の計算効率を向上する。
提案手法は,従来のグローバルアプローチと同じような平均精度とリコールを実現し,選択の計算コストを最大3桁まで削減し,Webスケールのアクティブラーニングを可能にした。
論文 参考訳(メタデータ) (2020-06-30T19:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。