論文の概要: Detection and Evaluation of Clusters within Sequential Data
- arxiv url: http://arxiv.org/abs/2210.01679v1
- Date: Tue, 4 Oct 2022 15:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:41:14.805867
- Title: Detection and Evaluation of Clusters within Sequential Data
- Title(参考訳): 逐次データにおけるクラスタの検出と評価
- Authors: Alexander Van Werde, Albert Senen-Cerda, Gianluca Kosmella, Jaron
Sanders
- Abstract要約: Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by theoretical advancements in dimensionality reduction techniques
we use a recent model, called Block Markov Chains, to conduct a practical study
of clustering in real-world sequential data. Clustering algorithms for Block
Markov Chains possess theoretical optimality guarantees and can be deployed in
sparse data regimes. Despite these favorable theoretical properties, a thorough
evaluation of these algorithms in realistic settings has been lacking.
We address this issue and investigate the suitability of these clustering
algorithms in exploratory data analysis of real-world sequential data. In
particular, our sequential data is derived from human DNA, written text, animal
movement data and financial markets. In order to evaluate the determined
clusters, and the associated Block Markov Chain model, we further develop a set
of evaluation tools. These tools include benchmarking, spectral noise analysis
and statistical model selection tools. An efficient implementation of the
clustering algorithm and the new evaluation tools is made available together
with this paper.
Practical challenges associated to real-world data are encountered and
discussed. It is ultimately found that the Block Markov Chain model assumption,
together with the tools developed here, can indeed produce meaningful insights
in exploratory data analyses despite the complexity and sparsity of real-world
data.
- Abstract(参考訳): 次元低減技術の理論的な進歩に動機づけられ、我々はブロックマルコフ連鎖と呼ばれる最近のモデルを用いて、実世界のシーケンシャルデータにおけるクラスタリングを実践的に研究している。
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性保証を持ち、スパースデータレシエーションにデプロイすることができる。
これらの良好な理論的性質にもかかわらず、現実的な設定におけるこれらのアルゴリズムの徹底的な評価は欠如している。
本稿では,実世界の逐次データの探索的データ解析におけるクラスタリングアルゴリズムの適合性について検討する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
決定されたクラスタと関連するブロックマルコフ連鎖モデルを評価するために、我々はさらに一連の評価ツールを開発した。
これらのツールには、ベンチマーク、スペクトルノイズ分析、統計モデル選択ツールが含まれる。
本稿では,クラスタリングアルゴリズムと新しい評価ツールの効率的な実装について述べる。
実世界のデータに関連する実践的な課題に遭遇し、議論する。
最後に、ブロックマルコフ連鎖モデルが、ここで開発されたツールとともに、実世界のデータの複雑さとスパース性にもかかわらず、探索的データ分析において有意義な洞察を生み出すことが判明した。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Generating Multidimensional Clusters With Support Lines [0.0]
合成データ生成のためのモジュラープロシージャであるClugenを提案する。
Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。
クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
論文 参考訳(メタデータ) (2023-01-24T22:08:24Z) - Seeking the Truth Beyond the Data. An Unsupervised Machine Learning
Approach [0.0]
クラスタリングは、ラベルのない要素/オブジェクトがグループ化される、教師なしの機械学習方法論である。
この記事では、最も広く使われているクラスタリング手法について詳しく説明する。
3つのデータセットに基づいて、これらのアルゴリズムのクラスタリング効率の比較を強調している。
論文 参考訳(メタデータ) (2022-07-14T14:22:36Z) - An iterative clustering algorithm for the Contextual Stochastic Block
Model with optimality guarantees [4.007017852999008]
本稿では,ノードの側情報を持つクラスタネットワークに対して,新たな反復アルゴリズムを提案する。
このアルゴリズムは文脈対称性ブロックモデルの下で最適であることを示す。
論文 参考訳(メタデータ) (2021-12-20T12:04:07Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Network Classifiers Based on Social Learning [71.86764107527812]
空間と時間に対して独立に訓練された分類器を結合する新しい手法を提案する。
提案したアーキテクチャは、ラベルのないデータで時間とともに予測性能を改善することができる。
この戦略は高い確率で一貫した学習をもたらすことが示され、未訓練の分類器に対して頑健な構造が得られる。
論文 参考訳(メタデータ) (2020-10-23T11:18:20Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - A semi-supervised sparse K-Means algorithm [3.04585143845864]
クラスタリングに必要な機能のサブグループを検出するために、教師なしスパースクラスタリング手法を用いることができる。
半教師付き手法では、ラベル付きデータを使用して制約を作成し、クラスタリングソリューションを強化することができる。
提案アルゴリズムは,他の半教師付きアルゴリズムの高性能性を保ち,また,情報的特徴から情報的特徴を識別する能力も保持していることを示す。
論文 参考訳(メタデータ) (2020-03-16T02:05:23Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。