論文の概要: Results of the NeurIPS'21 Challenge on Billion-Scale Approximate Nearest
Neighbor Search
- arxiv url: http://arxiv.org/abs/2205.03763v1
- Date: Sun, 8 May 2022 02:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 23:12:44.347107
- Title: Results of the NeurIPS'21 Challenge on Billion-Scale Approximate Nearest
Neighbor Search
- Title(参考訳): neurips'21チャレンジ「10億近い近接探索」の結果
- Authors: Harsha Vardhan Simhadri, George Williams, Martin Aum\"uller, Matthijs
Douze, Artem Babenko, Dmitry Baranchuk, Qi Chen, Lucas Hosseini, Ravishankar
Krishnaswamy, Gopal Srinivasa, Suhas Jayaram Subramanya, Jingdong Wang
- Abstract要約: このコンペティションは、ANNSアルゴリズムをハードウェアコスト、精度、性能で数十億ドル規模で比較する。
このコンペティションのために新たに4つの、60億の多様なデータセットをまとめました。
- 参考スコア(独自算出の注目度): 57.18075258042082
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the broad range of algorithms for Approximate Nearest Neighbor
Search, most empirical evaluations of algorithms have focused on smaller
datasets, typically of 1 million points~\citep{Benchmark}. However, deploying
recent advances in embedding based techniques for search, recommendation and
ranking at scale require ANNS indices at billion, trillion or larger scale.
Barring a few recent papers, there is limited consensus on which algorithms are
effective at this scale vis-\`a-vis their hardware cost.
This competition compares ANNS algorithms at billion-scale by hardware cost,
accuracy and performance. We set up an open source evaluation framework and
leaderboards for both standardized and specialized hardware. The competition
involves three tracks. The standard hardware track T1 evaluates algorithms on
an Azure VM with limited DRAM, often the bottleneck in serving billion-scale
indices, where the embedding data can be hundreds of GigaBytes in size. It uses
FAISS~\citep{Faiss17} as the baseline. The standard hardware track T2
additional allows inexpensive SSDs in addition to the limited DRAM and uses
DiskANN~\citep{DiskANN19} as the baseline. The specialized hardware track T3
allows any hardware configuration, and again uses FAISS as the baseline.
We compiled six diverse billion-scale datasets, four newly released for this
competition, that span a variety of modalities, data types, dimensions, deep
learning models, distance functions and sources. The outcome of the competition
was ranked leaderboards of algorithms in each track based on recall at a query
throughput threshold. Additionally, for track T3, separate leaderboards were
created based on recall as well as cost-normalized and power-normalized query
throughput.
- Abstract(参考訳): 近距離探索のための幅広いアルゴリズムにもかかわらず、アルゴリズムの実証的な評価はより小さなデータセットに焦点を合わせており、典型的には100万点〜\citep{benchmark}である。
しかし,最近の組込み技術による大規模検索,推薦,ランキングの展開には,数十億,数十億以上のANNS指標が必要である。
最近のいくつかの論文を除いて、このスケールでどのアルゴリズムが有効であるかについてのコンセンサスは限られている。
このコンペティションは、ANNSアルゴリズムをハードウェアコスト、精度、性能で数十億ドル規模で比較する。
私たちは、標準化されたハードウェアと特殊なハードウェアのためのオープンソースの評価フレームワークとリーダーボードを構築しました。
競技には3つのトラックがある。
標準的なハードウェアトラックT1は、DRAMが限られているAzure VM上のアルゴリズムを評価する。
FAISS~\citep{Faiss17} をベースラインとして使用する。
標準のハードウェアトラックT2は、限られたDRAMに加えて安価なSSDを可能にし、ベースラインとしてDiskANN~\citep{DiskANN19}を使用する。
特別なハードウェアトラックT3は任意のハードウェア構成を可能にし、FAISSをベースラインとして使用する。
このコンペティションのために新たにリリースされた4つのデータセットは、さまざまなモダリティ、データタイプ、寸法、ディープラーニングモデル、距離関数、ソースにまたがる。
競合の結果は、クエリスループットのしきい値でのリコールに基づいて、各トラックのアルゴリズムのリーダーボードにランク付けされた。
さらにトラックT3では、リコールとコスト正規化と電力正規化のクエリスループットに基づいて、別々のリーダボードが作成されている。
関連論文リスト
- Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate
Nearest Neighbor Search Algorithms [5.478671305092084]
本稿では,ParlayANNについて紹介する。ParlayANNは決定論的および並列グラフに基づく近接探索アルゴリズムのライブラリである。
我々は、数十億のデータセットにスケールする4つの最先端グラフベースのANNSアルゴリズムに対して、新しい並列実装を開発する。
論文 参考訳(メタデータ) (2023-05-07T19:28:23Z) - MLGWSC-1: The first Machine Learning Gravitational-Wave Search Mock Data
Challenge [110.7678032481059]
第1回機械学習重力波探索モックデータチャレンジ(MLGWSC-1)の結果を示す。
この課題のために、参加するグループは、より現実的な雑音に埋め込まれた複雑さと持続期間が増大する二元ブラックホールの融合から重力波信号を特定する必要があった。
この結果から,現在の機械学習検索アルゴリズムは,限られたパラメータ領域においてすでに十分敏感である可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-22T16:44:59Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - Are we ready for beyond-application high-volume data? The Reeds robot
perception benchmark dataset [3.781421673607643]
本稿ではロボット認識アルゴリズムの研究のためにReedsと呼ばれるデータセットを提案する。
このデータセットは、アプリケーション固有のソリューションをテストする環境を提供するのではなく、アルゴリズムに要求されるベンチマーク機会を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-16T23:21:42Z) - OPANAS: One-Shot Path Aggregation Network Architecture Search for Object
Detection [82.04372532783931]
近年、ニューラルアーキテクチャサーチ (NAS) が特徴ピラミッドネットワーク (FPN) の設計に活用されている。
本稿では,探索効率と検出精度を大幅に向上させる,ワンショットパス集約ネットワークアーキテクチャ探索(OPANAS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T01:48:53Z) - NATS-Bench: Benchmarking NAS Algorithms for Architecture Topology and
Size [31.903475598150152]
アーキテクチャトポロジとサイズの両方を検索するための統一ベンチマークであるNATS-Benchを提案する。
NATS-Benchには、アーキテクチャトポロジのための15,625のニューラルネットワーク候補と、3つのデータセット上のアーキテクチャサイズのための32,768の検索スペースが含まれている。
論文 参考訳(メタデータ) (2020-08-28T21:34:56Z) - Distributed Tera-Scale Similarity Search with MPI: Provably Efficient
Similarity Search over billions without a Single Distance Computation [40.75034970144169]
SLASHはテラバイト規模のデータセットの類似性を近似的に検索する分散システムである。
SLASHはこの2.3テラバイトのデータを1時間以内に20ノードにインデックスし、クエリ時間をミリ秒単位で表示する。
論文 参考訳(メタデータ) (2020-08-05T18:15:36Z) - Local Search is a Remarkably Strong Baseline for Neural Architecture
Search [0.0]
ニューラルネットワーク探索(NAS)のための簡単な局所探索(LS)アルゴリズムを初めて検討する。
我々は、2つの確立された画像分類タスクに対して200Kのネットワーク評価を含む2つのベンチマークデータセット、MacroNAS-C10とMacroNAS-C100をリリースする。
論文 参考訳(メタデータ) (2020-04-20T00:08:34Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。