論文の概要: Enabling DBSCAN for Very Large-Scale High-Dimensional Spaces
- arxiv url: http://arxiv.org/abs/2411.11421v3
- Date: Tue, 03 Dec 2024 10:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 12:22:05.019772
- Title: Enabling DBSCAN for Very Large-Scale High-Dimensional Spaces
- Title(参考訳): 超大規模高次元空間のためのDBSCANの開発
- Authors: Yongyu Wang,
- Abstract要約: DBSCANは、非パラメトリックな教師なしデータ分析ツールの中で最も重要なものの一つである。
DBSCANアルゴリズムの時間複雑性は$O(n2 beta)$であり、$n$はデータ点の数、$beta = O(D)$はデータ空間の次元を表す$D$である。
スペクトルデータ圧縮に基づくDBSCAN法を提案し、大量のデータポイントと高次元のデータセットを効率的に処理する。
- 参考スコア(独自算出の注目度): 2.1937382384136637
- License:
- Abstract: DBSCAN is one of the most important non-parametric unsupervised data analysis tools. By applying DBSCAN to a dataset, two key analytical results can be obtained: (1) clustering data points based on density distribution and (2) identifying outliers in the dataset. However, the time complexity of the DBSCAN algorithm is $O(n^2 \beta)$, where $n$ is the number of data points and $\beta = O(D)$, with $D$ representing the dimensionality of the data space. As a result, DBSCAN becomes computationally infeasible when both $n$ and $D$ are large. In this paper, we propose a DBSCAN method based on spectral data compression, capable of efficiently processing datasets with a large number of data points ($n$) and high dimensionality ($D$). By preserving only the most critical structural information during the compression process, our method effectively removes substantial redundancy and noise. Consequently, the solution quality of DBSCAN is significantly improved, enabling more accurate and reliable results.
- Abstract(参考訳): DBSCANは、非パラメトリックな教師なしデータ分析ツールの中で最も重要なものの一つである。
データセットにDBSCANを適用することで、(1)密度分布に基づくデータポイントのクラスタリングと(2)データセットの外れ値の識別という、2つの重要な分析結果が得られる。
しかし、DBSCANアルゴリズムの時間複雑性は$O(n^2 \beta)$であり、$n$はデータ点の数、$\beta = O(D)$はデータ空間の次元を表す$D$である。
その結果、$n$と$D$の両方が大きければ、DBSCANは計算不能になる。
本稿では,大量のデータポイント(n$)と高次元性(D$)のデータセットを効率的に処理できるスペクトルデータ圧縮に基づくDBSCAN法を提案する。
圧縮過程においてもっとも重要な構造情報のみを保存することにより,かなりの冗長性とノイズを効果的に除去する。
これにより、DBSCANの溶液品質が大幅に向上し、より正確で信頼性の高い結果が得られる。
関連論文リスト
- Accelerating UMAP for Large-Scale Datasets Through Spectral Coarsening [2.1937382384136637]
提案手法は,本質的な多様体構造を保ちながら,データセットのサイズを大幅に削減する。
USPSのような実世界のデータセットの実験では、埋め込み忠実さを損なうことなく、実質的なデータ削減を実現する方法の能力を実証している。
論文 参考訳(メタデータ) (2024-11-19T08:32:17Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - Convolutional variational autoencoders for secure lossy image compression in remote sensing [47.75904906342974]
本研究では,畳み込み変分オートエンコーダ(CVAE)に基づく画像圧縮について検討する。
CVAEは、JPEG2000のような従来の圧縮手法を圧縮ベンチマークデータセットのかなりのマージンで上回ることが示されている。
論文 参考訳(メタデータ) (2024-04-03T15:17:29Z) - Accelerate Support Vector Clustering via Spectrum-Preserving Data
Compression [5.825190876052149]
提案手法は,まず圧縮されたデータセットを圧縮し,元のデータセットの鍵クラスタ特性を保ちながら計算する。
スペクトル圧縮されたデータセットは、ベクトルクラスタリングをサポートする高速で高品質なアルゴリズムの開発に活用される。
論文 参考訳(メタデータ) (2023-04-19T01:35:05Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Optimizing Vessel Trajectory Compression [71.42030830910227]
前回の研究では,AISの位置情報をオンラインで消費することで,血管軌跡の要約表現を提供するトラジェクトリ検出モジュールを導入しました。
この手法は、生データの少なくとも70%を冗長として廃棄することにより、元のコースからほとんど逸脱しない信頼性の高い軌道合成を提供することができる。
しかし、そのような軌道圧縮はパラメトリゼーションに非常に敏感である。
各容器のタイプを考慮し, 軌道のシナプスを改良する適切な構成を提供する。
論文 参考訳(メタデータ) (2020-05-11T20:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。