論文の概要: Density based Spatial Clustering of Lines via Probabilistic Generation of Neighbourhood
- arxiv url: http://arxiv.org/abs/2410.02290v1
- Date: Thu, 3 Oct 2024 08:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 04:12:15.165809
- Title: Density based Spatial Clustering of Lines via Probabilistic Generation of Neighbourhood
- Title(参考訳): 近傍の確率的生成による線密度に基づく空間クラスタリング
- Authors: Akanksha Das, Malay Bhattacharyya,
- Abstract要約: 本稿では,固定ボリュームの行に対して,カスタマイズされた近傍領域を生成するクラスタリングアルゴリズムを設計する。
このアルゴリズムは外れ値に敏感ではなく、濃度パラメータを用いてデータのノイズを効果的に識別することができる。
このアルゴリズムの重要な応用の1つは、データポイントを不足したエントリを持つ$mathbbRn$にクラスタリングすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Density based spatial clustering of points in $\mathbb{R}^n$ has a myriad of applications in a variety of industries. We generalise this problem to the density based clustering of lines in high-dimensional spaces, keeping in mind there exists no valid distance measure that follows the triangle inequality for lines. In this paper, we design a clustering algorithm that generates a customised neighbourhood for a line of a fixed volume (given as a parameter), based on an optional parameter as a continuous probability density function. This algorithm is not sensitive to the outliers and can effectively identify the noise in the data using a cardinality parameter. One of the pivotal applications of this algorithm is clustering data points in $\mathbb{R}^n$ with missing entries, while utilising the domain knowledge of the respective data. In particular, the proposed algorithm is able to cluster $n$-dimensional data points that contain at least $(n-1)$-dimensional information. We illustrate the neighbourhoods for the standard probability distributions with continuous probability density functions and demonstrate the effectiveness of our algorithm on various synthetic and real-world datasets (e.g., rail and road networks). The experimental results also highlight its application in clustering incomplete data.
- Abstract(参考訳): $\mathbb{R}^n$ の点の密度に基づく空間的クラスタリングは、様々な産業における無数の応用を持つ。
この問題を高次元空間における直線の密度に基づくクラスタリングに一般化し、直線の三角形の不等式に従う有効な距離測度が存在しないことを念頭に置いておく。
本稿では,パラメータを連続確率密度関数として用いた,固定ボリュームの行に対して,カスタマイズされた近傍を生成するクラスタリングアルゴリズムを設計する。
このアルゴリズムは外れ値に敏感ではなく、濃度パラメータを用いてデータのノイズを効果的に識別することができる。
このアルゴリズムの重要な応用の1つは、各データのドメイン知識を活用しながら、欠落したエントリを持つ$\mathbb{R}^n$でデータポイントをクラスタリングすることである。
特に、提案アルゴリズムは、少なくとも$(n-1)$-dimensional情報を含む$n$-dimensionalデータポイントをクラスタリングすることができる。
本稿では, 連続確率密度関数を持つ標準確率分布の近傍領域について述べるとともに, 各種合成および実世界のデータセット(鉄道, 道路ネットワークなど)におけるアルゴリズムの有効性を実証する。
実験結果はまた、不完全なデータのクラスタリングにおけるその応用を強調している。
関連論文リスト
- Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - Faithful Density-Peaks Clustering via Matrix Computations on MPI Parallelization System [7.594123537718585]
密度ピーククラスタリング(DP)は任意の形状のクラスタを検出し、非ユークリッド空間データをクラスタリングする能力を持つ。
本稿では,2種類のベクトル状距離行列と逆前ノードファイリングポリシを併用した忠実かつ並列なDP法を提案する。
本手法は,コミュニティ検出などの非ユークリッドデータをクラスタリングすると同時に,大規模ユークリッドデータをクラスタリングする場合の精度において,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-06-18T06:05:45Z) - DECWA : Density-Based Clustering using Wasserstein Distance [1.4132765964347058]
空間密度と確率的アプローチに基づく新しいクラスタリングアルゴリズムを提案する。
提案手法は, 様々なデータセットにおいて, 最先端の密度に基づくクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T11:10:08Z) - PaVa: a novel Path-based Valley-seeking clustering algorithm [13.264374632165776]
本稿では,任意の形状のクラスタのための新しいパスベースのバレー探索クラスタリングアルゴリズムを提案する。
このアルゴリズムには3つの重要なテクニックが使われている。
その結果,パスに基づくバレー探索アルゴリズムは正確かつ効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T02:29:34Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Dynamical Systems Algorithm for Clustering in Hyperspectral Imagery [0.18374319565577152]
ハイパースペクトル画像におけるクラスタリングのための新しい動的システムアルゴリズムを提案する。
このアルゴリズムの主な考え方は、密度を増加させる方向に「データポイントが押される」ことであり、同じ密度の領域に終わるピクセル群は同じクラスに属する。
本手法は, 既定素材のクラスを基礎事実として, k-means アルゴリズムと性能を比較した都市景観におけるアルゴリズムの評価を行う。
論文 参考訳(メタデータ) (2022-07-21T17:31:57Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Spatially relaxed inference on high-dimensional linear models [48.989769153211995]
本研究では,空間的に制約されたクラスタリング,統計的推論,アンサンブルを組み合わせ,複数のクラスタリング推論解を集約するアンサンブルクラスタリング推論アルゴリズムの特性について検討する。
アンサンブルクラスタ推論アルゴリズムは,最大クラスター径に等しい$delta$-FWERの標準仮定で$delta$-FWERを制御することを示す。
論文 参考訳(メタデータ) (2021-06-04T16:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。