論文の概要: How Should We Evaluate Data Deletion in Graph-Based ANN Indexes?
- arxiv url: http://arxiv.org/abs/2512.06200v1
- Date: Fri, 05 Dec 2025 22:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.23396
- Title: How Should We Evaluate Data Deletion in Graph-Based ANN Indexes?
- Title(参考訳): グラフベースのANNインデックスでデータ削除を評価するには?
- Authors: Tomohiro Yamashita, Daichi Amagata, Yusuke Matsui,
- Abstract要約: 本研究では,ANNSインデックスのデータ削除効率を評価するための実験フレームワークと総合評価指標を提案する。
グラフベースANNSにおけるデータ削除手法を3つのアプローチに分類し,数学的に定式化する。
提案手法は,現在最先端のANNS手法の一つである階層的ナビゲートブル・スモールワールドに応用し,データ削除の効果を解析する。
- 参考スコア(独自算出の注目度): 24.027067624024227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate Nearest Neighbor Search (ANNS) has recently gained significant attention due to its many applications, such as Retrieval-Augmented Generation. Such applications require ANNS algorithms that support dynamic data, so the ANNS problem on dynamic data has attracted considerable interest. However, a comprehensive evaluation methodology for data deletion in ANNS has yet to be established. This study proposes an experimental framework and comprehensive evaluation metrics to assess the efficiency of data deletion for ANNS indexes under practical use cases. Specifically, we categorize data deletion methods in graph-based ANNS into three approaches and formalize them mathematically. The performance is assessed in terms of accuracy, query speed, and other relevant metrics. Finally, we apply the proposed evaluation framework to Hierarchical Navigable Small World, one of the state-of-the-art ANNS methods, to analyze the effects of data deletion, and propose Deletion Control, a method which dynamically selects the appropriate deletion method under a required search accuracy.
- Abstract(参考訳): Approximate Nearest Neighbor Search (ANNS) は、Retrieval-Augmented Generation など多くの応用により、最近注目されている。
このようなアプリケーションは動的データをサポートするANNSアルゴリズムを必要とするため、動的データに対するANNS問題は大きな関心を集めている。
しかし,ANNSにおけるデータ削除に関する包括的評価手法はまだ確立されていない。
本研究では,ANNSインデックスのデータ削除効率を評価するための実験的枠組みと総合評価指標を提案する。
具体的には、グラフベースのANNSにおけるデータ削除手法を3つのアプローチに分類し、数学的に定式化する。
パフォーマンスは、正確性、クエリ速度、その他の関連するメトリクスの観点から評価される。
最後に,現在最先端のANNS手法の一つである階層的ナビゲートブル・スモールワールドに提案手法を適用し,データ削除の効果を解析し,必要な検索精度で適切な削除方法を動的に選択するDeletion Controlを提案する。
関連論文リスト
- Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。
精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-31T08:38:21Z) - Neural Networks for Censored Expectile Regression Based on Data Augmentation [7.4480203741653535]
異種検閲データのモデリングのためのデータ拡張に基づくERNNアルゴリズムであるDAERNNを提案する。
シミュレーション研究と実データ応用により、DAERNNは既存の検閲されたERNNよりも優れており、完全に観測されたデータに基づいて訓練されたモデルに匹敵する予測性能が得られることを示した。
論文 参考訳(メタデータ) (2025-10-23T08:42:23Z) - Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery [12.33811209316863]
対数密度のヘッセン対角線を近似するために,Score-informed Neural Operator (SciNO)を提案する。
SciNOは、合成グラフで42.7%、実世界のデータセットで31.5%のオーダー分散を減少させる。
また,自己回帰モデルを用いた因果推論のための確率論的制御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-18T06:25:41Z) - A Comprehensive Taxonomy of Negation for NLP and Neural Retrievers [57.57320129313161]
我々は、哲学的、言語的、論理的定義から派生した否定の分類を導入した。
ニューラルネットワーク検索モデルの性能評価に使用できるベンチマークデータセットを2つ生成する。
本稿では,既存のデータセットの検索モデルの性能を解析するために,論理に基づく分類機構を提案する。
論文 参考訳(メタデータ) (2025-07-30T02:44:20Z) - CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion [8.036012885171166]
我々は、動的データ取り込みを伴う連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介する。
CANDYは幅広いAKNNアルゴリズムを包括的に評価し、機械学習駆動推論のような高度な最適化を統合する。
多様なデータセットに対する評価では、より単純なAKNNベースラインが、リコールやレイテンシの点で、より複雑な選択肢を上回ることが示されている。
論文 参考訳(メタデータ) (2024-06-28T04:46:11Z) - Neural Dynamic Data Valuation: A Stochastic Optimal Control Approach [15.538631565455448]
本稿では、時間とともにデータユーティリティの動的進化を捉えるために、データバリュエーションを最適制御問題として定式化する新しいフレームワークを提案する。
静的アプローチとは異なり、NDDVは個々の学習力学と集団学習力学の両方を反映した連続的な軌跡を通してデータ相互作用をモデル化する。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Assessing Systematic Weaknesses of DNNs using Counterfactuals [3.5849841840695835]
このような低いパフォーマンスの理由を、サブセットを記述する特定のセマンティックな特徴に当てはめるのは簡単ではない。
そこで本研究では,既存のサブセットのセマンティック属性を効果的かつ安価に検証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T08:41:39Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。