Fugu-MT 論文翻訳(概要): CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion

論文の概要: CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion

arxiv url: http://arxiv.org/abs/2406.19651v1
Date: Fri, 28 Jun 2024 04:46:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 17:50:12.897956
Title: CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion
Title（参考訳）: CANDY: 動的データ取り込みによる近接探索の連続近似ベンチマーク
Authors: Xianzhi Zeng, Zhuoyan Wu, Xinjing Hu, Xuanhua Shi, Shixuan Sun, Shuhao Zhang,
Abstract要約: 我々は、動的データ取り込みを伴う連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介する。 CANDYは幅広いAKNNアルゴリズムを包括的に評価し、機械学習駆動推論のような高度な最適化を統合する。多様なデータセットに対する評価では、より単純なAKNNベースラインが、リコールやレイテンシの点で、より複雑な選択肢を上回ることが示されている。
参考スコア（独自算出の注目度）: 8.036012885171166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Approximate K Nearest Neighbor (AKNN) algorithms play a pivotal role in various AI applications, including information retrieval, computer vision, and natural language processing. Although numerous AKNN algorithms and benchmarks have been developed recently to evaluate their effectiveness, the dynamic nature of real-world data presents significant challenges that existing benchmarks fail to address. Traditional benchmarks primarily assess retrieval effectiveness in static contexts and often overlook update efficiency, which is crucial for handling continuous data ingestion. This limitation results in an incomplete assessment of an AKNN algorithms ability to adapt to changing data patterns, thereby restricting insights into their performance in dynamic environments. To address these gaps, we introduce CANDY, a benchmark tailored for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion. CANDY comprehensively assesses a wide range of AKNN algorithms, integrating advanced optimizations such as machine learning-driven inference to supplant traditional heuristic scans, and improved distance computation methods to reduce computational overhead. Our extensive evaluations across diverse datasets demonstrate that simpler AKNN baselines often surpass more complex alternatives in terms of recall and latency. These findings challenge established beliefs about the necessity of algorithmic complexity for high performance. Furthermore, our results underscore existing challenges and illuminate future research opportunities. We have made the datasets and implementation methods available at: https://github.com/intellistream/candy.
Abstract（参考訳）: Approximate K Nearest Neighbor (AKNN)アルゴリズムは、情報検索、コンピュータビジョン、自然言語処理など、さまざまなAIアプリケーションにおいて重要な役割を果たす。 AKNNアルゴリズムとベンチマークは、その有効性を評価するために最近開発されたが、実世界のデータの動的な性質は、既存のベンチマークが対処できない重大な課題を示している。従来のベンチマークは、主に静的なコンテキストにおける検索効率を評価し、しばしば更新効率を見落としている。この制限により、データパターンの変化に適応できるAKNNアルゴリズムの不完全な評価が行われ、それによって動的環境におけるパフォーマンスに対する洞察が制限される。これらのギャップに対処するため、私たちは、動的データ取り込みによる連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介します。 CANDYは、幅広いAKNNアルゴリズムを包括的に評価し、機械学習による推論のような高度な最適化を統合し、従来のヒューリスティックスキャンに取って代わり、計算オーバーヘッドを減らすために距離計算法を改善した。多様なデータセットに対する広範な評価は、単純なAKNNベースラインがリコールやレイテンシという点で、より複雑な代替手段を超越していることを示している。これらの発見は,高い性能を実現するためにアルゴリズムの複雑さが必要であるという信念の確立に挑戦した。さらに,本研究は,既存の課題を浮き彫りにし,今後の研究機会を照らし出すものである。データセットと実装メソッドは、https://github.com/intellistream/candy.comで公開しています。

関連論文リスト

Learning-Augmented Moment Estimation on Time-Decay Models [55.06256430461023]
私たちは、多くの基本的な問題に対して学習強化アルゴリズムを提供するために、データセットのヘビーヒッターにオラクルを使用します。提案手法は,実データおよび合成データセット上でのアルゴリズムの実用的効率を実証する実験的な評価によって理論的結果を補完するものである。
論文参考訳（メタデータ） (2026-03-03T00:42:34Z)
Efficient Sketching and Nearest Neighbor Search Algorithms for Sparse Vector Sets [16.768212375976546]
スパースANNSのための新しいデータ構造とアルゴリズム手法を提案する。我々の貢献は、スパースベクトルに対する理論的に基底化されたスケッチアルゴリズムから、それらの有効次元を減少させるものまで様々である。我々の最終アルゴリズムは耐震性と呼ばれ、大規模ベンチマークデータセット上で高精度でミリ秒以下のレイテンシに達する。
論文参考訳（メタデータ） (2025-09-29T14:02:45Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:14:32Z)
Score-matching-based Structure Learning for Temporal Data on Networks [17.166362605356074]
因果発見は経験的データと背景知識から因果関係を確立するための重要な第一歩である。現在のスコアマッチングベースのアルゴリズムは、主に独立および同一に分散された(d.d.)データを分析するために設計されている。我々はDAGの葉ノードのための新しい親フィンディングサブルーチンを開発し、プロセスの最も時間を要する部分である刈り込みステップを著しく加速した。
論文参考訳（メタデータ） (2024-12-10T12:36:35Z)
No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation [4.45108516823267]
我々は,現在最先端のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。我々はこれらの手法を従来よりも桁違いに複雑なデータ領域で評価する。私たちの作業はPythonパッケージで公開されており、シンプルなPytorchを提供しています。
論文参考訳（メタデータ） (2024-07-30T08:47:02Z)
Enhancing HNSW Index for Real-Time Updates: Addressing Unreachable Points and Performance Degradation [0.9592510017131104]
グラフベースのインデックスは、大量のリアルタイム削除、挿入、更新に直面したとき、受け入れられなくなる。本稿では,HNSWの欠点を克服するための効率的な対策について述べる。提案したMN-RUアルゴリズムは,更新効率を効果的に向上し,到達不能な点の成長速度を抑え,全体の性能を向上し,グラフの完全性を維持する。
論文参考訳（メタデータ） (2024-07-10T17:37:15Z)
State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文参考訳（メタデータ） (2024-06-13T12:51:22Z)
The Impacts of Data, Ordering, and Intrinsic Dimensionality on Recall in Hierarchical Navigable Small Worlds [0.09208007322096533]
調査は、HNSWがデータセットのスペクトルにわたって有効であることに焦点を当てている。我々は、KN(K Nearest Neighbours)探索と比較して、近似HNSW探索のリコールが、ベクトル空間の固有次元と結びついていることを発見した。一般的なベンチマークデータセットをKNNの代わりにHNSWで実行することで、いくつかのモデルではランキングを最大3ポジションシフトすることができる。
論文参考訳（メタデータ） (2024-05-28T04:16:43Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Approximate Nearest Neighbour Search on Dynamic Datasets: An Investigation [20.409659920455955]
近似k-Nearest Neighbour (ANN) 法は情報マイニングや大規模高次元データセットでの機械学習支援によく用いられる。静的なデータセットを持つアプリケーションでは、ランタイム制約とデータセットプロパティを使用して、適切な操作特性を持つANNメソッドを経験的に選択することができる。従来の評価手法は、インデックス構造を更新する際の計算コストや、インデックス更新の率とサイズを考慮していない。
論文参考訳（メタデータ） (2024-04-30T06:21:44Z)
ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate Nearest Neighbor Search Algorithms [5.478671305092084]
本稿では,ParlayANNについて紹介する。ParlayANNは決定論的および並列グラフに基づく近接探索アルゴリズムのライブラリである。我々は、数十億のデータセットにスケールする4つの最先端グラフベースのANNSアルゴリズムに対して、新しい並列実装を開発する。
論文参考訳（メタデータ） (2023-05-07T19:28:23Z)
Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.19080749267316]
Sparsity May Cry"ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。 SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文参考訳（メタデータ） (2023-03-03T18:47:21Z)
IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。 7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文参考訳（メタデータ） (2023-01-31T01:24:45Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文参考訳（メタデータ） (2021-02-18T13:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。