論文の概要: Learned Accelerator Framework for Angular-Distance-Based
High-Dimensional DBSCAN
- arxiv url: http://arxiv.org/abs/2302.03136v1
- Date: Mon, 6 Feb 2023 21:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:02:43.542332
- Title: Learned Accelerator Framework for Angular-Distance-Based
High-Dimensional DBSCAN
- Title(参考訳): 角距離に基づく高次元DBSCANのための学習加速器フレームワーク
- Authors: Yifan Wang and Daisy Zhe Wang
- Abstract要約: DBSCANのような従来の密度ベースのクラスタリング技術は、高次元データ上での劣化性能を持つ。
本稿では,従来のDBSCANとサンプリングに基づくDBSCANの変種を高速化する汎用的な学習アクセラレータフレームワークであるLAFを提案する。
評価の結果, LAF強化DBSCAN法は, 効率と品質の両面で, 最先端のDBSCAN法よりも優れていた。
- 参考スコア(独自算出の注目度): 7.949962335466427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Density-based clustering is a commonly used tool in data science. Today many
data science works are utilizing high-dimensional neural embeddings. However,
traditional density-based clustering techniques like DBSCAN have a degraded
performance on high-dimensional data. In this paper, we propose LAF, a generic
learned accelerator framework to speed up the original DBSCAN and the
sampling-based variants of DBSCAN on high-dimensional data with angular
distance metric. This framework consists of a learned cardinality estimator and
a post-processing module. The cardinality estimator can fast predict whether a
data point is core or not to skip unnecessary range queries, while the
post-processing module detects the false negative predictions and merges the
falsely separated clusters. The evaluation shows our LAF-enhanced DBSCAN method
outperforms the state-of-the-art efficient DBSCAN variants on both efficiency
and quality.
- Abstract(参考訳): 密度ベースのクラスタリングは、データサイエンスで一般的に使われるツールである。
今日、多くのデータサイエンス研究が高次元の神経埋め込みを利用している。
しかし、DBSCANのような従来の密度に基づくクラスタリング技術は、高次元データで性能が劣化している。
本稿では,従来のDBSCANとサンプリングに基づくDBSCANの変種を,角距離距離の高次元データ上で高速化する汎用学習アクセラレータフレームワークであるLAFを提案する。
このフレームワークは学習された濃度推定器と後処理モジュールで構成される。
基数推定器は、データポイントがコアであるか否かを迅速に予測でき、後処理モジュールは偽陰性予測を検出し、誤分離されたクラスタをマージする。
評価の結果, LAF強化DBSCAN法は, 効率と品質の両面で, 最先端のDBSCAN法よりも優れていた。
関連論文リスト
- Enabling DBSCAN for Very Large-Scale High-Dimensional Spaces [2.1937382384136637]
DBSCANは、非パラメトリックな教師なしデータ分析ツールの中で最も重要なものの一つである。
DBSCANアルゴリズムの時間複雑性は$O(n2 beta)$であり、$n$はデータ点の数、$beta = O(D)$はデータ空間の次元を表す$D$である。
スペクトルデータ圧縮に基づくDBSCAN法を提案し、大量のデータポイントと高次元のデータセットを効率的に処理する。
論文 参考訳(メタデータ) (2024-11-18T09:46:45Z) - Inferring Neural Signed Distance Functions by Overfitting on Single Noisy Point Clouds through Finetuning Data-Driven based Priors [53.6277160912059]
本稿では,データ駆動型およびオーバーフィット型手法のプロースを推進し,より一般化し,高速な推論を行い,より高精度なニューラルネットワークSDFを学習する手法を提案する。
そこで本研究では,距離管理やクリーンポイントクラウド,あるいは点正規化を伴わずに,データ駆動型プリエントを微調整できる新しい統計的推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T16:48:44Z) - Block-Diagonal Guided DBSCAN Clustering [1.6550162152849242]
クラスタ分析は、データベースマイニングにおいて重要な役割を果たす。
この分野で最も広く使われているアルゴリズムの1つはDBSCANである。
本稿では,DBSCANのクラスタリング手順をガイドするDBSCANの改良版を紹介する。
論文 参考訳(メタデータ) (2024-03-31T05:04:38Z) - Scalable Density-based Clustering with Random Projections [9.028773906859541]
本稿では,コサイン距離の高い高次元密度クラスタリングアルゴリズムであるsDBSCANを提案する。
実証的には、sDBSCANは、現実世界の百万点データセット上の他の多くのクラスタリングアルゴリズムよりもはるかに高速で精度が高い。
論文 参考訳(メタデータ) (2024-02-24T01:45:51Z) - Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。
このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。
このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文 参考訳(メタデータ) (2022-08-09T04:40:11Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。