論文の概要: Toward Efficient and Scalable Design of In-Memory Graph-Based Vector Search
- arxiv url: http://arxiv.org/abs/2509.05750v1
- Date: Sat, 06 Sep 2025 15:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.689152
- Title: Toward Efficient and Scalable Design of In-Memory Graph-Based Vector Search
- Title(参考訳): インメモリグラフに基づくベクトル探索の効率的かつスケーラブルな設計に向けて
- Authors: Ilias Azizi, Karima Echihab, Themis Palpanas, Vassilis Christophides,
- Abstract要約: 12種類のグラフに基づくベクトル探索アルゴリズムを実験的に評価する。
これらの手法の強みと限界に関する重要な洞察を共有します。
我々は、より高度なデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
- 参考スコア(独自算出の注目度): 9.411318148463872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector data is prevalent across business and scientific applications, and its popularity is growing with the proliferation of learned embeddings. Vector data collections often reach billions of vectors with thousands of dimensions, thus, increasing the complexity of their analysis. Vector search is the backbone of many critical analytical tasks, and graph-based methods have become the best choice for analytical tasks that do not require guarantees on the quality of the answers. Although several paradigms (seed selection, incremental insertion, neighborhood propagation, neighborhood diversification, and divide-and-conquer) have been employed to design in-memory graph-based vector search algorithms, a systematic comparison of the key algorithmic advances is still missing. We conduct an exhaustive experimental evaluation of twelve state-of-the-art methods on seven real data collections, with sizes up to 1 billion vectors. We share key insights about the strengths and limitations of these methods; e.g., the best approaches are typically based on incremental insertion and neighborhood diversification, and the choice of the base graph can hurt scalability. Finally, we discuss open research directions, such as the importance of devising more sophisticated data adaptive seed selection and diversification strategies.
- Abstract(参考訳): ベクトルデータは、ビジネスや科学の応用で広く使われており、その人気は、学習された埋め込みの普及と共に高まっている。
ベクトルデータ収集は数千次元の数十億のベクトルに到達し、解析の複雑さを増大させる。
ベクトル探索は多くの重要な分析タスクのバックボーンであり、グラフベースの手法は、回答の品質の保証を必要としない分析タスクにとって最良の選択肢となっている。
いくつかのパラダイム(シードセレクション、インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタル、近所の多様化、分割・アンド・コンカスタ)がインメモリグラフベースのベクトル探索アルゴリズムの設計に使われてきたが、重要なアルゴリズムの進歩の体系的比較はいまだに欠けている。
我々は,最大10億ベクトルの7つの実データ収集に対して,12の最先端手法を徹底的に評価した。
例えば、最良のアプローチはインクリメンタルな挿入と近隣の多様化に基づいており、ベースグラフの選択はスケーラビリティを損なう可能性がある。
最後に、より高度なデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - WideSeek: Advancing Wide Research via Multi-Agent Scaling [29.02742625120584]
ワイドリサーチ(英: Wide Research)は、複雑な制約の下で複雑な情報を並列に合成・合成するためのパラダイムである。
データパイプラインとエージェント最適化という2つの観点から、ワイドリサーチを深く掘り下げています。
まず、厳密な多相データパイプラインを用いて構築されたベンチマークであるWideSeekBenchを作成し、ターゲット情報ボリュームの多様性を保証する。
第2に,タスク要求に基づいて並列サブエージェントを自律的にフォークできる動的階層型マルチエージェントアーキテクチャであるWideSeekを紹介する。
論文 参考訳(メタデータ) (2026-02-02T18:32:48Z) - Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art [7.859729554664894]
我々は,7つの実データ収集に対して,最大10億個のベクトルで12種類の最先端手法を実験的に評価する。
これらの手法の強みと限界に関する重要な洞察を共有します。
我々は、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
論文 参考訳(メタデータ) (2025-02-08T14:03:43Z) - Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。
ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文 参考訳(メタデータ) (2024-03-23T11:34:17Z) - Embedding in Recommender Systems: A Survey [54.55152033023537]
本調査では,レコメンデータシステム埋め込み技術の進歩を包括的に分析する。
マトリックスベースのシナリオでは、協調フィルタリングはユーザの好みを効果的にモデル化する埋め込みを生成する。
パフォーマンス向上のため,AutoMLやハッシュ技術,量子化手法など,新たなアプローチを導入する。
論文 参考訳(メタデータ) (2023-10-28T06:31:06Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。
提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文 参考訳(メタデータ) (2022-09-15T20:41:18Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。
次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。
最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文 参考訳(メタデータ) (2020-08-07T05:18:58Z) - Similarity Search for Efficient Active Learning and Search of Rare
Concepts [78.5475382904847]
我々は,現在ラベル付けされている集合の近傍にラベル付けする候補プールを制限することにより,能動的学習と探索法の計算効率を向上する。
提案手法は,従来のグローバルアプローチと同じような平均精度とリコールを実現し,選択の計算コストを最大3桁まで削減し,Webスケールのアクティブラーニングを可能にした。
論文 参考訳(メタデータ) (2020-06-30T19:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。