論文の概要: nTreeClus: a Tree-based Sequence Encoder for Clustering Categorical
Series
- arxiv url: http://arxiv.org/abs/2102.10252v1
- Date: Sat, 20 Feb 2021 03:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:15:40.118325
- Title: nTreeClus: a Tree-based Sequence Encoder for Clustering Categorical
Series
- Title(参考訳): ntreeclus: カテゴリ系列をクラスタリングするツリーベースのシーケンスエンコーダ
- Authors: Hadi Jahanshahi and Mustafa Gokce Baydogan
- Abstract要約: 本稿では,nTreeClusというクラスタリングシーケンスデータに対するモデルに基づく新しいアプローチを提案する。
この新しい表現を採用することで、分類的時系列に固有のパターンを考慮し、シーケンスをクラスタ化する。
合成および実際のデータセット、タンパク質配列、カテゴリー時系列を用いた経験的評価は、nTreeClusが最先端のアルゴリズムよりも競合的あるいは優れていることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The overwhelming presence of categorical/sequential data in diverse domains
emphasizes the importance of sequence mining. The challenging nature of
sequences proves the need for continuing research to find a more accurate and
faster approach providing a better understanding of their (dis)similarities.
This paper proposes a new Model-based approach for clustering sequence data,
namely nTreeClus. The proposed method deploys Tree-based Learners, k-mers, and
autoregressive models for categorical time series, culminating with a novel
numerical representation of the categorical sequences. Adopting this new
representation, we cluster sequences, considering the inherent patterns in
categorical time series. Accordingly, the model showed robustness to its
parameter. Under different simulated scenarios, nTreeClus improved the baseline
methods for various internal and external cluster validation metrics for up to
10.7% and 2.7%, respectively. The empirical evaluation using synthetic and real
datasets, protein sequences, and categorical time series showed that nTreeClus
is competitive or superior to most state-of-the-art algorithms.
- Abstract(参考訳): 多様な領域におけるカテゴリ/シーケンスデータの圧倒的存在は、シーケンスマイニングの重要性を強調している。
シーケンスの困難な性質は、(dis)類似性をよりよく理解するより正確で高速なアプローチを見つけるために、研究を続ける必要性を証明している。
本稿では,nTreeClusというクラスタリングシーケンスデータに対するモデルに基づく新しいアプローチを提案する。
提案手法では,木に基づく学習者,k-mer,自動回帰モデルを分類時系列に展開し,分類系列の数値表現を新たに行う。
この新しい表現を採用することで、分類的時系列に固有のパターンを考慮し、シーケンスをクラスタ化する。
したがって、モデルはパラメータに堅牢性を示した。
異なるシミュレートシナリオの下で、nTreeClusは、それぞれ10.7%と2.7%の様々な内部および外部クラスタ検証メトリクスのベースラインメソッドを改善した。
合成および実際のデータセット、タンパク質配列、カテゴリー時系列を用いた経験的評価は、nTreeClusが最先端のアルゴリズムよりも競合的あるいは優れていることを示した。
関連論文リスト
- Approximate learning of parsimonious Bayesian context trees [0.0]
提案するフレームワークは、合成および実世界のデータ例に基づいてテストされる。
これは、実際のタンパク質配列やハニーポットコンピュータターミナルセッションに適合すると、既存のシーケンスモデルより優れている。
論文 参考訳(メタデータ) (2024-07-27T11:50:40Z) - Interpretable Sequence Clustering [3.280979689839737]
我々は、ISCT(Interpretable Sequence Clustering Tree)と呼ばれる手法を提案する。
ISCTは、k個のクラスタに対応するk個のリーフノードを生成し、各クラスタの生成方法に関する直感的な説明を提供する。
実世界の14のデータセットに対する実験結果から,本手法が解釈可能な木構造を提供することが示された。
論文 参考訳(メタデータ) (2023-09-03T11:31:44Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Seq-HyGAN: Sequence Classification via Hypergraph Attention Network [0.0]
シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。
シーケンスデータに明示的な機能がないため、機械学習モデルでは難しい。
本稿では,新しいハイパーグラフ注意ネットワークモデル,Seq-HyGANを提案する。
論文 参考訳(メタデータ) (2023-03-04T11:53:33Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - Cluster-and-Conquer: A Framework For Time-Series Forecasting [94.63501563413725]
本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。
当社のフレームワークは非常に汎用的で,各ステップで時系列予測やクラスタリングが利用可能です。
単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-26T20:41:19Z) - T-LoHo: A Bayesian Regularization Model for Structured Sparsity and
Smoothness on Graphs [0.0]
グラフ構造化データでは、構造化されたスパーシリティと滑らかさが団結する傾向にある。
グラフィカルな関係を持つ高次元パラメータに先立って提案する。
構造された空間と滑らかさを同時に検出するために使用します。
論文 参考訳(メタデータ) (2021-07-06T10:10:03Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。