論文の概要: How Should We Evaluate Data Deletion in Graph-Based ANN Indexes?
- arxiv url: http://arxiv.org/abs/2512.06200v1
- Date: Fri, 05 Dec 2025 22:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.23396
- Title: How Should We Evaluate Data Deletion in Graph-Based ANN Indexes?
- Title(参考訳): グラフベースのANNインデックスでデータ削除を評価するには?
- Authors: Tomohiro Yamashita, Daichi Amagata, Yusuke Matsui,
- Abstract要約: 本研究では,ANNSインデックスのデータ削除効率を評価するための実験フレームワークと総合評価指標を提案する。
グラフベースANNSにおけるデータ削除手法を3つのアプローチに分類し,数学的に定式化する。
提案手法は,現在最先端のANNS手法の一つである階層的ナビゲートブル・スモールワールドに応用し,データ削除の効果を解析する。
- 参考スコア(独自算出の注目度): 24.027067624024227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate Nearest Neighbor Search (ANNS) has recently gained significant attention due to its many applications, such as Retrieval-Augmented Generation. Such applications require ANNS algorithms that support dynamic data, so the ANNS problem on dynamic data has attracted considerable interest. However, a comprehensive evaluation methodology for data deletion in ANNS has yet to be established. This study proposes an experimental framework and comprehensive evaluation metrics to assess the efficiency of data deletion for ANNS indexes under practical use cases. Specifically, we categorize data deletion methods in graph-based ANNS into three approaches and formalize them mathematically. The performance is assessed in terms of accuracy, query speed, and other relevant metrics. Finally, we apply the proposed evaluation framework to Hierarchical Navigable Small World, one of the state-of-the-art ANNS methods, to analyze the effects of data deletion, and propose Deletion Control, a method which dynamically selects the appropriate deletion method under a required search accuracy.
- Abstract(参考訳): Approximate Nearest Neighbor Search (ANNS) は、Retrieval-Augmented Generation など多くの応用により、最近注目されている。
このようなアプリケーションは動的データをサポートするANNSアルゴリズムを必要とするため、動的データに対するANNS問題は大きな関心を集めている。
しかし,ANNSにおけるデータ削除に関する包括的評価手法はまだ確立されていない。
本研究では,ANNSインデックスのデータ削除効率を評価するための実験的枠組みと総合評価指標を提案する。
具体的には、グラフベースのANNSにおけるデータ削除手法を3つのアプローチに分類し、数学的に定式化する。
パフォーマンスは、正確性、クエリ速度、その他の関連するメトリクスの観点から評価される。
最後に,現在最先端のANNS手法の一つである階層的ナビゲートブル・スモールワールドに提案手法を適用し,データ削除の効果を解析し,必要な検索精度で適切な削除方法を動的に選択するDeletion Controlを提案する。
関連論文リスト
- Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery [12.33811209316863]
対数密度のヘッセン対角線を近似するために,Score-informed Neural Operator (SciNO)を提案する。
SciNOは、合成グラフで42.7%、実世界のデータセットで31.5%のオーダー分散を減少させる。
また,自己回帰モデルを用いた因果推論のための確率論的制御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-18T06:25:41Z) - A Comprehensive Taxonomy of Negation for NLP and Neural Retrievers [57.57320129313161]
我々は、哲学的、言語的、論理的定義から派生した否定の分類を導入した。
ニューラルネットワーク検索モデルの性能評価に使用できるベンチマークデータセットを2つ生成する。
本稿では,既存のデータセットの検索モデルの性能を解析するために,論理に基づく分類機構を提案する。
論文 参考訳(メタデータ) (2025-07-30T02:44:20Z) - CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion [8.036012885171166]
我々は、動的データ取り込みを伴う連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介する。
CANDYは幅広いAKNNアルゴリズムを包括的に評価し、機械学習駆動推論のような高度な最適化を統合する。
多様なデータセットに対する評価では、より単純なAKNNベースラインが、リコールやレイテンシの点で、より複雑な選択肢を上回ることが示されている。
論文 参考訳(メタデータ) (2024-06-28T04:46:11Z) - Neural Dynamic Data Valuation: A Stochastic Optimal Control Approach [15.538631565455448]
本稿では、時間とともにデータユーティリティの動的進化を捉えるために、データバリュエーションを最適制御問題として定式化する新しいフレームワークを提案する。
静的アプローチとは異なり、NDDVは個々の学習力学と集団学習力学の両方を反映した連続的な軌跡を通してデータ相互作用をモデル化する。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。