論文の概要: The Exploitation of Distance Distributions for Clustering
- arxiv url: http://arxiv.org/abs/2108.09649v1
- Date: Sun, 22 Aug 2021 06:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:37:49.524558
- Title: The Exploitation of Distance Distributions for Clustering
- Title(参考訳): クラスタリングのための距離分布の活用
- Authors: Michael C. Thrun
- Abstract要約: クラスタ分析では、距離分布の異なる特性が適切な距離選択に関係していると判断される。
ミラー化密度プロットを用いて分布解析を用いて,この仕様を体系的に検討することにより,クラスタ解析においてマルチモーダル距離分布が好ましいことを示す。
実験は、クラスタリングのタスクのために、いくつかの人工データセットと自然なデータセットで行われます。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although distance measures are used in many machine learning algorithms, the
literature on the context-independent selection and evaluation of distance
measures is limited in the sense that prior knowledge is used. In cluster
analysis, current studies evaluate the choice of distance measure after
applying unsupervised methods based on error probabilities, implicitly setting
the goal of reproducing predefined partitions in data. Such studies use
clusters of data that are often based on the context of the data as well as the
custom goal of the specific study. Depending on the data context, different
properties for distance distributions are judged to be relevant for appropriate
distance selection. However, if cluster analysis is based on the task of
finding similar partitions of data, then the intrapartition distances should be
smaller than the interpartition distances. By systematically investigating this
specification using distribution analysis through a mirrored-density plot, it
is shown that multimodal distance distributions are preferable in cluster
analysis. As a consequence, it is advantageous to model distance distributions
with Gaussian mixtures prior to the evaluation phase of unsupervised methods.
Experiments are performed on several artificial datasets and natural datasets
for the task of clustering.
- Abstract(参考訳): 距離測度は多くの機械学習アルゴリズムで使われているが、先行知識を用いた場合、文脈に依存しない距離測度の選択と評価に関する文献は限られている。
クラスタ分析では, 誤差確率に基づいて教師なし手法を適用し, 予め定義されたデータの分割を再現するという目標を暗黙的に設定し, 距離測定の選択を評価する。
このような研究は、しばしばデータの文脈に基づくデータのクラスターと、特定の研究のカスタム目標を使用する。
データコンテキストにより、距離分布の異なる特性が適切な距離選択に関係していると判断される。
しかし、クラスタ分析が類似したデータのパーティションを見つけるタスクに基づいている場合、パーティション内距離はインターパーティション間距離よりも小さくなければならない。
ミラード密度プロットによる分布解析を用いて,この仕様を体系的に検討することにより,クラスタ分析においてマルチモーダル距離分布が好ましいことを示した。
その結果, 教師なし手法の評価に先立ち, ガウス混合系の距離分布をモデル化することが有利である。
クラスタリングタスクのために、いくつかの人工データセットと自然データセットで実験を行う。
関連論文リスト
- Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - A Distribution-Based Threshold for Determining Sentence Similarity [0.0]
本稿では,意味的テキスト類似性(STS)問題に対する解決法を提案する。
このソリューションは、シアムアーキテクチャに基づくニューラルネットワークの使用を中心に展開され、類似した文と異なる文のペア間の距離の分布を生成する。
論文 参考訳(メタデータ) (2023-11-28T10:42:35Z) - Computing the Distance between unbalanced Distributions -- The flat
Metric [0.0]
平坦計量は、よく知られたワッサーシュタイン距離 W1 を、分布が不等質量である場合に一般化する。
この手法のコアはニューラルネットワークに基づいて、2つの測度間の距離を実現する最適なテスト関数を決定する。
論文 参考訳(メタデータ) (2023-08-02T09:30:22Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - A new nonparametric interpoint distance-based measure for assessment of
clustering [0.0]
データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。
提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知数のクラスタを決定するために使用できる。
論文 参考訳(メタデータ) (2022-10-01T04:27:54Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - On Cokriging, Neural Networks, and Spatial Blind Source Separation for
Multivariate Spatial Prediction [3.416170716497814]
ブラインドソース分離は空間予測のための前処理ツールである。
本稿では,空間的ブラインド音源分離を空間的予測のための前処理ツールとして利用することを検討する。
我々は、大規模なシミュレーション研究と地球化学データセットにおいて、Cokrigingとニューラルネットワークの予測と比較した。
論文 参考訳(メタデータ) (2020-07-01T10:59:45Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。