論文の概要: Consistent spectral clustering in sparse tensor block models
- arxiv url: http://arxiv.org/abs/2501.13820v1
- Date: Thu, 23 Jan 2025 16:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:54:59.549250
- Title: Consistent spectral clustering in sparse tensor block models
- Title(参考訳): スパーステンソルブロックモデルにおける一貫性スペクトルクラスタリング
- Authors: Ian Välimaa, Lasse Leskelä,
- Abstract要約: 高階クラスタリングは、様々な分野で広く使われているマルチウェイデータセットでオブジェクトを分類することを目的としている。
本稿では,整数値の少ないデータテンソルに特化して設計されたテンソルブロックモデルを提案する。
ノイズ変動を緩和するためのトリミングステップを付加した単純なスペクトルクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High-order clustering aims to classify objects in multiway datasets that are prevalent in various fields such as bioinformatics, social network analysis, and recommendation systems. These tasks often involve data that is sparse and high-dimensional, presenting significant statistical and computational challenges. This paper introduces a tensor block model specifically designed for sparse integer-valued data tensors. We propose a simple spectral clustering algorithm augmented with a trimming step to mitigate noise fluctuations, and identify a density threshold that ensures the algorithm's consistency. Our approach models sparsity using a sub-Poisson noise concentration framework, accommodating heavier than sub-Gaussian tails. Remarkably, this natural class of tensor block models is closed under aggregation across arbitrary modes. Consequently, we obtain a comprehensive framework for evaluating the tradeoff between signal loss and noise reduction during data aggregation. The analysis is based on a novel concentration bound for sparse random Gram matrices. The theoretical findings are illustrated through simulation experiments.
- Abstract(参考訳): 高次クラスタリングは、バイオインフォマティクス、ソーシャルネットワーク分析、レコメンデーションシステムなど、様々な分野で広く使われているマルチウェイデータセットのオブジェクトを分類することを目的としている。
これらのタスクは、しばしばスパースで高次元のデータを伴い、重要な統計的および計算上の課題を提示する。
本稿では,整数値の少ないデータテンソルに特化して設計されたテンソルブロックモデルを提案する。
ノイズ変動を緩和するためのトリミングステップを付加した単純なスペクトルクラスタリングアルゴリズムを提案し,アルゴリズムの整合性を保証する密度閾値を同定する。
提案手法は, サブガウスの尾部よりも重く, サブポアソン雑音集中フレームワークを用いて空間分布をモデル化する。
注目すべきは、このテンソルブロックモデルの自然なクラスは任意のモードにまたがるアグリゲーションの下で閉じていることである。
その結果,データ収集時の信号損失とノイズ低減のトレードオフを評価するための総合的な枠組みが得られた。
この分析はスパースランダムグラム行列に束縛された新しい濃度に基づく。
理論的な知見はシミュレーション実験によって示される。
関連論文リスト
- High-Dimensional Tensor Discriminant Analysis with Incomplete Tensors [5.745276598549783]
本研究では,高次元線形判別分析における不完全データを用いたテンソル分類手法を提案する。
提案手法は,データ不足のかなりの割合であっても,シミュレーションや実データ解析において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T18:00:16Z) - Heteroskedastic Tensor Clustering [20.979358557219953]
我々は、$mathsfHightext-orderHeteroClustering$$mathsfHHC$という2段階の手法を提案する。
まず、$mathsfThresholdedDeflatedtext-HeteroPCA$と呼ばれる新しいスペクトルアルゴリズムを使ってテンソル部分空間の推定を行い、続いてクラスタノードを取得するためにおよそ$k$-meansを実行する。
我々のアルゴリズムは、SNRが計算限界を超える限り、正確なクラスタリングを確実に達成する。
論文 参考訳(メタデータ) (2023-11-04T02:50:40Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Score-based Diffusion Models in Function Space [137.70916238028306]
拡散モデルは、最近、生成モデリングの強力なフレームワークとして登場した。
この研究は、関数空間における拡散モデルをトレーニングするためのDDO(Denoising Diffusion Operators)と呼ばれる数学的に厳密なフレームワークを導入する。
データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。
論文 参考訳(メタデータ) (2023-02-14T23:50:53Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Exact Clustering in Tensor Block Model: Statistical Optimality and
Computational Limit [10.8145995157397]
高階クラスタリングは、マルチウェイデータセットの異種サブ構造を特定することを目的とする。
非計算と問題の性質は統計学と統計学の両方に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-12-18T00:48:27Z) - Robust spectral clustering using LASSO regularization [0.0]
本稿では,ブロックモデルと密接な関係を持つ新しいランダムモデルを用いて,スペクトルクラスタリングの一種である1スペクトルクラスタリングを提案する。
その目標は、グラフの自然な構造を明らかにする1の最小化問題のスパース固有基底解を促進することである。
論文 参考訳(メタデータ) (2020-04-08T07:12:56Z) - Randomized Spectral Clustering in Large-Scale Stochastic Block Models [13.366036495177923]
統計的観点からランダム化されたスケッチアルゴリズムを用いてスペクトルクラスタリングについて検討する。
弱い条件下では、ランダム化されたスペクトルクラスタリングアルゴリズムは、元のスペクトルクラスタリングアルゴリズムと同じ理論的境界に導かれる。
Rclustと呼ばれる新しいRパッケージが開発され、一般に公開されている。
論文 参考訳(メタデータ) (2020-01-20T04:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。