論文の概要: Generating Multidimensional Clusters With Support Lines
- arxiv url: http://arxiv.org/abs/2301.10327v2
- Date: Sun, 30 Jul 2023 23:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:45:09.865940
- Title: Generating Multidimensional Clusters With Support Lines
- Title(参考訳): サポートラインを用いた多次元クラスタの生成
- Authors: Nuno Fachada, Diogo de Andrade
- Abstract要約: 合成データ生成のためのモジュラープロシージャであるClugenを提案する。
Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。
クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic data is essential for assessing clustering techniques,
complementing and extending real data, and allowing for more complete coverage
of a given problem's space. In turn, synthetic data generators have the
potential of creating vast amounts of data -- a crucial activity when
real-world data is at premium -- while providing a well-understood generation
procedure and an interpretable instrument for methodically investigating
cluster analysis algorithms. Here, we present Clugen, a modular procedure for
synthetic data generation, capable of creating multidimensional clusters
supported by line segments using arbitrary distributions. Clugen is open
source, comprehensively unit tested and documented, and is available for the
Python, R, Julia, and MATLAB/Octave ecosystems. We demonstrate that our
proposal can produce rich and varied results in various dimensions, is fit for
use in the assessment of clustering algorithms, and has the potential to be a
widely used framework in diverse clustering-related research tasks.
- Abstract(参考訳): 合成データは、クラスタリング技術の評価、実際のデータの補完と拡張、与えられた問題空間のより完全なカバレッジを可能にするために不可欠である。
結果として、合成データジェネレータは、よく理解された生成手順と、クラスタ分析アルゴリズムを体系的に調査するための解釈可能な手段を提供しながら、膨大な量のデータを生成する可能性がある。
本稿では,任意の分布を用いて線分をサポートする多次元クラスタを作成可能な合成データ生成のためのモジュール手法であるclugenを提案する。
Clugenはオープンソースで、包括的なユニットテストとドキュメント化が行われ、Python、R、Julia、MATLAB/Octaveエコシステムで利用できる。
提案手法は,様々な次元においてリッチで多様な結果を生み出すことができ,クラスタリングアルゴリズムの評価に適しており,多様なクラスタリング関連研究タスクにおいて広く利用されるフレームワークとなる可能性を秘めている。
関連論文リスト
- ClusterGraph: a new tool for visualization and compression of multidimensional data [0.0]
本稿では,任意のクラスタリングアルゴリズムの出力に付加的なレイヤを提供する。
クラスタリングアルゴリズムから得られたクラスタのグローバルなレイアウトに関する情報を提供する。
論文 参考訳(メタデータ) (2024-11-08T09:40:54Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - A Multiscale Environment for Learning by Diffusion [9.619814126465206]
本稿では,Multiscale Environment for Learning by Diffusion (MELD)データモデルを提案する。
本稿では,MELDデータモデルがデータ中の潜在的マルチスケール構造を正確に把握し,解析を容易にすることを示す。
多くの実データセットで観測されるマルチスケール構造を効率的に学習するために,教師なし拡散(M-LUND)クラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-01-31T17:46:19Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Elastic Coupled Co-clustering for Single-Cell Genomic Data [0.0]
シングルセル技術により、前例のない解像度でゲノム機能をプロファイルできるようになった。
データ統合はクラスタリングアルゴリズムのパフォーマンスを向上させる可能性がある。
本研究では,教師なしの移動学習フレームワークで問題を定式化する。
論文 参考訳(メタデータ) (2020-03-29T08:21:53Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。