論文の概要: Neighborhood Stability as a Measure of Nearest Neighbor Searchability
- arxiv url: http://arxiv.org/abs/2602.16673v1
- Date: Wed, 18 Feb 2026 18:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.678596
- Title: Neighborhood Stability as a Measure of Nearest Neighbor Searchability
- Title(参考訳): 最近傍の探索可能性の尺度としての近隣の安定性
- Authors: Thomas Vecchiato, Sebastian Bruch,
- Abstract要約: クラスタリングベースの近似Nearest Neighbor Search (ANNS)は、一連のポイントをパーティションに整理し、クエリの最も近い隣人を見つけるために、そのいくつかだけを検索する。
その人気にもかかわらず、クラスタリングベースのANNSの特定のデータセットに対する適合性を決定する分析ツールはほとんどない。
ユークリッド空間における高次元点の平坦なクラスタリングに関する2つの尺度を示す。
- 参考スコア(独自算出の注目度): 8.035521056416242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering-based Approximate Nearest Neighbor Search (ANNS) organizes a set of points into partitions, and searches only a few of them to find the nearest neighbors of a query. Despite its popularity, there are virtually no analytical tools to determine the suitability of clustering-based ANNS for a given dataset -- what we call "searchability." To address that gap, we present two measures for flat clusterings of high-dimensional points in Euclidean space. First is Clustering-Neighborhood Stability Measure (clustering-NSM), an internal measure of clustering quality -- a function of a clustering of a dataset -- that we show to be predictive of ANNS accuracy. The second, Point-Neighborhood Stability Measure (point-NSM), is a measure of clusterability -- a function of the dataset itself -- that is predictive of clustering-NSM. The two together allow us to determine whether a dataset is searchable by clustering-based ANNS given only the data points. Importantly, both are functions of nearest neighbor relationships between points, not distances, making them applicable to various distance functions including inner product.
- Abstract(参考訳): クラスタリングベースの近似Nearest Neighbor Search (ANNS)は、一連のポイントをパーティションに整理し、クエリの最も近い隣人を見つけるために、そのいくつかだけを検索する。
その人気にもかかわらず、クラスタリングベースのANNSが特定のデータセットに適合するかどうかを判断するための分析ツールはほとんどありません。
このギャップに対処するため、ユークリッド空間における高次元点の平坦なクラスタリングについて2つの尺度を提示する。
まず、クラスタリング-NSM(Clustering-Neighborhood Stability Measure)は、ANNSの精度を予測できるクラスタリング品質(データセットのクラスタリングの関数)の内部測定値です。
第2に、Point-Neighborhood Stability Measure(ポイント-NSM)は、クラスタリング-NSMの予測であるクラスタビリティ(データセット自体の関数)の測定値である。
この2つを組み合わせることで、データセットがクラスタリングベースのANNSによって検索可能かどうかを判断できます。
重要なことは、どちらも距離ではなく、点間の最も近い隣り合う関係の関数であり、内積を含む様々な距離関数に適用できる。
関連論文リスト
- Parameter-Free Clustering via Self-Supervised Consensus Maximization (Extended Version) [50.41628860536753]
本稿では,SCMax と呼ばれる自己教師型コンセンサス最大化による,新しい完全パラメータフリークラスタリングフレームワークを提案する。
本フレームワークは,階層的なクラスタリングとクラスタ評価を単一の統合プロセスで行う。
論文 参考訳(メタデータ) (2025-11-12T11:17:17Z) - Village-Net Clustering: A Rapid approach to Non-linear Unsupervised Clustering of High-Dimensional Data [0.0]
教師なしクラスタリングアルゴリズム「Village-Net」を開発した。
まず、K-Meansクラスタリングを利用して、データセットを別個のサブセットに分割する。
我々は,既存の実世界のデータセットに対して,その競合性能を示すために,既知の地下構造ラベルを用いた広範なベンチマークを行う。
論文 参考訳(メタデータ) (2025-01-16T06:56:43Z) - Learning Cluster Representatives for Approximate Nearest Neighbor Search [0.0]
この論文はクラスタリングに基づく近似近傍探索の包括的説明を提供する。
また、新しい最先端の手法のあらゆる側面を紹介し、掘り下げます。
この直感の発達と,それを内積探索の最大化に適用することにより,単純な線形関数を用いた学習クラスタ代表がクラスタリングに基づく近接探索の精度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-08T12:31:32Z) - A Parametrizable Algorithm for Distributed Approximate Similarity Search with Arbitrary Distances [0.5030361857850012]
PDASC(Parametrizable Distributed Approximate similarity Search with Clustering)を提案する。
PDASCは、分散データ環境での運用や、異なるトポロジで定義されたデータセットの処理に適していることを示す。
論文 参考訳(メタデータ) (2024-05-22T16:19:52Z) - DenMune: Density peak based clustering using mutual nearest neighbors [0.0]
多くのクラスタリングアルゴリズムは、クラスタが任意の形状、様々な密度、あるいはデータクラスが互いに不均衡で近接している場合に失敗する。
この課題を満たすために、新しいクラスタリングアルゴリズムであるDenMuneが提示されている。
これは、Kがユーザから要求される唯一のパラメータである大きさKの互いに近い近傍を用いて、密集領域を特定することに基づいている。
論文 参考訳(メタデータ) (2023-09-23T16:18:00Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Spatiotemporal k-means [39.98633724527769]
マルチスケールクラスタを解析できるk-means (STk) と呼ばれる2つの時間クラスタリング手法を提案する。
我々は、STkMがより複雑な機械学習タスク、特にビデオにおける関心の検出と追跡の教師なし領域にどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-11-10T04:40:31Z) - Swarm Intelligence for Self-Organized Clustering [6.85316573653194]
Databionic Swarm(DBS)と呼ばれるSwarmシステムが導入された。
スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングのタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。
論文 参考訳(メタデータ) (2021-06-10T06:21:48Z) - Stable and consistent density-based clustering via multiparameter persistence [49.1574468325115]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。