Fugu-MT 論文翻訳(概要): Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art

論文の概要: Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art

arxiv url: http://arxiv.org/abs/2502.05575v1
Date: Sat, 08 Feb 2025 14:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.959224
Title: Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art
Title（参考訳）: グラフベースベクトル探索:現状の実験的評価
Authors: Ilias Azizi, Karima Echihabi, Themis Palpanas,
Abstract要約: 我々は,7つの実データ収集に対して,最大10億個のベクトルで12種類の最先端手法を実験的に評価する。これらの手法の強みと限界に関する重要な洞察を共有します。我々は、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
参考スコア（独自算出の注目度）: 12.125503552019508
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vector data is prevalent across business and scientific applications, and its popularity is growing with the proliferation of learned embeddings. Vector data collections often reach billions of vectors with thousands of dimensions, thus, increasing the complexity of their analysis. Vector search is the backbone of many critical analytical tasks, and graph-based methods have become the best choice for analytical tasks that do not require guarantees on the quality of the answers. We briefly survey in-memory graph-based vector search, outline the chronology of the different methods and classify them according to five main design paradigms: seed selection, incremental insertion, neighborhood propagation, neighborhood diversification, and divide-and-conquer. We conduct an exhaustive experimental evaluation of twelve state-of-the-art methods on seven real data collections, with sizes up to 1 billion vectors. We share key insights about the strengths and limitations of these methods; e.g., the best approaches are typically based on incremental insertion and neighborhood diversification, and the choice of the base graph can hurt scalability. Finally, we discuss open research directions, such as the importance of devising more sophisticated data-adaptive seed selection and diversification strategies.
Abstract（参考訳）: ベクトルデータは、ビジネスや科学の応用で広く使われており、その人気は、学習された埋め込みの普及と共に高まっている。ベクトルデータ収集は数千次元の数十億のベクトルに到達し、解析の複雑さを増大させる。ベクトル探索は多くの重要な分析タスクのバックボーンであり、グラフベースの手法は、回答の品質の保証を必要としない分析タスクにとって最良の選択肢となっている。インメモリグラフに基づくベクトル探索を手短に調査し、各手法の時系列を概説し、種選択、インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメンタル、近所の伝播、近隣の多様化、配当および配当の5つの主要な設計パラダイムに従って分類する。我々は,最大10億ベクトルの7つの実データ収集に対して,12の最先端手法を徹底的に評価した。例えば、最良のアプローチはインクリメンタルな挿入と近隣の多様化に基づいており、ベースグラフの選択はスケーラビリティを損なう可能性がある。最後に、より洗練されたデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。

関連論文リスト

The Role of Community Detection Methods in Performance Variations of Graph Mining Tasks [0.0]
コミュニティ検出アルゴリズムの選択が下流アプリケーションの性能に大きく影響するかどうかを検討する。比較分析により、特定のコミュニティ検出アルゴリズムが特定のアプリケーションにおいて優れた結果をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2025-09-10T22:44:23Z)
Toward Efficient and Scalable Design of In-Memory Graph-Based Vector Search [9.411318148463872]
12種類のグラフに基づくベクトル探索アルゴリズムを実験的に評価する。これらの手法の強みと限界に関する重要な洞察を共有します。我々は、より高度なデータ適応型種選択と多様化戦略を考案することの重要性など、オープンな研究の方向性について論じる。
論文参考訳（メタデータ） (2025-09-06T15:43:36Z)
A Coreset Selection of Coreset Selection Literature: Introduction and Recent Advances [8.319613769928331]
コアセットの選択は、機械学習に不可欠なパターンを保存する大規模なデータセットの、小さくて代表的なサブセットを見つけるという課題を目標としている。この調査は、コアセット研究の3つの主要な行を単一の分類にまとめることで、より包括的な見解を示す。提案するサブフィールドは,部分モジュラー定式化や双レベル最適化,ラベルなしデータセットの擬似ラベル化の最近の進歩など,既存の研究によって見落とされがちである。
論文参考訳（メタデータ） (2025-05-23T12:18:34Z)
Out-of-Distribution Detection on Graphs: A Survey [58.47395497985277]
グラフアウト・オブ・ディストリビューション(GOOD)検出は、トレーニング中に見られる分布から逸脱するグラフデータを特定することに焦点を当てる。既存の手法を,拡張ベース,再構築ベース,情報伝達ベース,分類ベースという4つのタイプに分類する。本稿では,グラフデータによるユニークな課題を浮き彫りにして,実践的応用と理論的基礎について論じる。
論文参考訳（メタデータ） (2025-02-12T04:07:12Z)
Winners with Confidence: Discrete Argmin Inference with an Application to Model Selection [11.62889979871371]
本研究では,ベクトル雑音観測の最小値の指標を求める問題について検討する。この問題は、人口/政治比較、離散的最大可能性、モデル選択に関係している。我々は,高次元設定においても,異常な正常なテスト統計を発達させる。
論文参考訳（メタデータ） (2024-08-04T15:20:23Z)
A Closer Look at Deep Learning Methods on Tabular Datasets [78.61845513154502]
広い範囲にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行った。我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
論文参考訳（メタデータ） (2024-07-01T04:24:07Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文参考訳（メタデータ） (2023-11-11T12:01:18Z)
Embedding in Recommender Systems: A Survey [54.55152033023537]
本調査では,レコメンデータシステム埋め込み技術の進歩を包括的に分析する。マトリックスベースのシナリオでは、協調フィルタリングはユーザの好みを効果的にモデル化する埋め込みを生成する。パフォーマンス向上のため,AutoMLやハッシュ技術,量子化手法など,新たなアプローチを導入する。
論文参考訳（メタデータ） (2023-10-28T06:31:06Z)
How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文参考訳（メタデータ） (2023-05-19T17:33:38Z)
A Survey of Deep Graph Clustering: Taxonomy, Challenge, Application, and Open Resource [87.7460720701592]
本稿では, この分野における公式定義, 評価, 開発について紹介する。ディープグラフクラスタリング手法の分類は,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法など,4つの異なる基準に基づいて提示される。コンピュータビジョン、自然言語処理、レコメンデーションシステム、ソーシャルネットワーク分析、バイオインフォマティクス、医学を含む6分野におけるディープグラフクラスタリング手法の適用について述べる。
論文参考訳（メタデータ） (2022-11-23T11:31:11Z)
Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文参考訳（メタデータ） (2022-09-15T20:41:18Z)
A Comprehensive Analytical Survey on Unsupervised and Semi-Supervised Graph Representation Learning Methods [4.486285347896372]
本調査は,グラフ埋め込み手法のすべての主要なクラスを評価することを目的としている。我々は,手動の特徴工学,行列分解,浅部ニューラルネットワーク,深部グラフ畳み込みネットワークなどの手法を含む分類学を用いてグラフ埋め込み手法を編成した。我々はPyTorch GeometricおよびDGLライブラリ上で実験を設計し、異なるマルチコアCPUおよびGPUプラットフォーム上で実験を行った。
論文参考訳（メタデータ） (2021-12-20T07:50:26Z)
Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文参考訳（メタデータ） (2021-05-23T19:21:55Z)
Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。 1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-11T03:25:25Z)
Review of Swarm Intelligence-based Feature Selection Methods [3.8848561367220276]
高次元データセットを持つデータマイニングアプリケーションは、高速かつ精度が要求される。次元削減手法の1つは、データマイニングタスクの精度を高める機能選択である。最先端のSwarmインテリジェンスについて検討し、これらのアルゴリズムに基づく最近の特徴選択手法について概説する。
論文参考訳（メタデータ） (2020-08-07T05:18:58Z)
Semi-supervised Vector-valued Learning: Improved Bounds and Algorithms [20.53130700587322]
カーネルの観点と線形視点の両方から一般ベクトル値学習のための新しい半教師付き過剰リスク境界を導出する。理論解析により,ベクトル値関数を効率的に学習するための一般半教師付きアルゴリズムを提案する。
論文参考訳（メタデータ） (2019-09-11T07:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。