論文の概要: A Multiscale Environment for Learning by Diffusion
- arxiv url: http://arxiv.org/abs/2102.00500v1
- Date: Sun, 31 Jan 2021 17:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 07:03:24.953769
- Title: A Multiscale Environment for Learning by Diffusion
- Title(参考訳): 拡散学習のためのマルチスケール環境
- Authors: James M. Murphy and Sam L. Polk
- Abstract要約: 本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。
本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 9.619814126465206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering algorithms partition a dataset into groups of similar points. The
clustering problem is very general, and different partitions of the same
dataset could be considered correct and useful. To fully understand such data,
it must be considered at a variety of scales, ranging from coarse to fine. We
introduce the Multiscale Environment for Learning by Diffusion (MELD) data
model, which is a family of clusterings parameterized by nonlinear diffusion on
the dataset. We show that the MELD data model precisely captures latent
multiscale structure in data and facilitates its analysis. To efficiently learn
the multiscale structure observed in many real datasets, we introduce the
Multiscale Learning by Unsupervised Nonlinear Diffusion (M-LUND) clustering
algorithm, which is derived from a diffusion process at a range of temporal
scales. We provide theoretical guarantees for the algorithm's performance and
establish its computational efficiency. Finally, we show that the M-LUND
clustering algorithm detects the latent structure in a range of synthetic and
real datasets.
- Abstract(参考訳): クラスタリングアルゴリズムはデータセットを類似点のグループに分割する。
クラスタリングの問題は極めて一般的な問題であり、同じデータセットの異なるパーティションを正しく、有用とみなすことができる。
このようなデータを完全に理解するには、粗いものから細かいものまで、さまざまなスケールで考慮する必要がある。
本稿では,データセット上の非線形拡散によってパラメータ化されるクラスタリングのファミリであるMultiscale Environment for Learning by Diffusion (MELD)データモデルを紹介する。
MELDデータモデルがデータの潜在マルチスケール構造を正確にキャプチャし、分析を容易にすることを示した。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,時間スケールの拡散過程から導出される非教師なし非線形拡散(M-LUND)クラスタリングアルゴリズムを導入する。
我々は,アルゴリズムの性能を理論的に保証し,その計算効率を確立する。
最後に、M-LUNDクラスタリングアルゴリズムが、合成および実データの範囲内の潜伏構造を検出することを示す。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - FedSym: Unleashing the Power of Entropy for Benchmarking the Algorithms
for Federated Learning [1.4656078321003647]
Federated Learning(FL)は、独立した学習者がデータをプライベートに処理する分散機械学習アプローチである。
現在普及しているデータ分割技術について検討し、その主な欠点を可視化する。
エントロピーと対称性を利用して「最も困難」かつ制御可能なデータ分布を構築する手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T18:39:08Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Generating Multidimensional Clusters With Support Lines [0.0]
合成データ生成のためのモジュラープロシージャであるClugenを提案する。
Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。
クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
論文 参考訳(メタデータ) (2023-01-24T22:08:24Z) - Fast conformational clustering of extensive molecular dynamics
simulation data [19.444636864515726]
本稿では,長い軌道の高速なコンフォーメーションクラスタリングを実現するために,教師なしのデータ処理ワークフローを提案する。
我々は密度に基づく空間クラスタリングアルゴリズム(HDBSCAN)と2つの次元削減アルゴリズム(cc_analysisとEncodermap)を組み合わせる。
4つのテストシステムの助けを借りて、このクラスタリングワークフローの機能とパフォーマンスを説明します。
論文 参考訳(メタデータ) (2023-01-11T14:36:43Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - Kernel Biclustering algorithm in Hilbert Spaces [8.303238963864885]
我々は,エネルギー距離と平均誤差の最大値という概念を用いて,抽象空間における新しいモデルフリー・ビクラスタリングアルゴリズムを開発した。
提案手法は,既存の文献よりも一般的で複雑なクラスタ形状を学習することができる。
提案手法は,カーネルの適切な選択を前提として,その最適シナリオにおける最先端手法と類似している。
論文 参考訳(メタデータ) (2022-08-07T08:41:46Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。