論文の概要: Scalable Model-Based Clustering with Sequential Monte Carlo
- arxiv url: http://arxiv.org/abs/2604.14810v1
- Date: Thu, 16 Apr 2026 09:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.826214
- Title: Scalable Model-Based Clustering with Sequential Monte Carlo
- Title(参考訳): シークエンシャルモンテカルロを用いたスケーラブルモデルベースクラスタリング
- Authors: Connie Trojan, Pavel Myshkov, Paul Fearnhead, James Hensman, Tom Minka, Christopher Nemeth,
- Abstract要約: オンラインクラスタリング問題では、しばしばクラスタ割り当ての可能性に対して大量の不確実性が存在する。
モンテカルロ法は大規模な問題に対するメモリ要求を禁止している。
本稿では,クラスタリング問題をほぼ独立したサブプロブレムに分解する新しいSMCアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.585133556360962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online clustering problems, there is often a large amount of uncertainty over possible cluster assignments that cannot be resolved until more data are observed. This difficulty is compounded when clusters follow complex distributions, as is the case with text data. Sequential Monte Carlo (SMC) methods give a natural way of representing and updating this uncertainty over time, but have prohibitive memory requirements for large-scale problems. We propose a novel SMC algorithm that decomposes clustering problems into approximately independent subproblems, allowing a more compact representation of the algorithm state. Our approach is motivated by the knowledge base construction problem, and we show that our method is able to accurately and efficiently solve clustering problems in this setting and others where traditional SMC struggles.
- Abstract(参考訳): オンラインクラスタリング問題では、より多くのデータが観測されるまで解決できない可能性のあるクラスタ割り当てに対して、大きな不確実性が存在することが多い。
この困難さは、クラスタが複雑な分散に従えば、テキストデータのように複雑になる。
連続モンテカルロ法(SMC)は、この不確実性を時間とともに表現し、更新する自然な方法を提供するが、大規模な問題に対するメモリ要求を禁止している。
本稿では,クラスタリング問題をほぼ独立したサブプロブレムに分解し,アルゴリズム状態のよりコンパクトな表現を可能にする新しいSMCアルゴリズムを提案する。
我々の手法は知識ベース構築問題に動機付けられており,従来のSMCが苦労するクラスタリング問題を高精度かつ効率的に解けることを示す。
関連論文リスト
- A system identification approach to clustering vector autoregressive time series [50.66782357329375]
基礎となる力学に基づく時系列のクラスタ化は、複雑なシステムモデリングを支援するために研究者を惹きつけている。
現在の時系列クラスタリング手法のほとんどは、スカラー時系列のみを処理し、ホワイトノイズとして扱うか、高品質な特徴構築のためにドメイン知識に依存している。
システム識別アプローチは、機能/測定構造に頼るのではなく、基礎となる自己回帰力学を明示的に考慮することで、ベクトル時系列クラスタリングを処理できる。
論文 参考訳(メタデータ) (2025-05-20T14:31:44Z) - CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network [53.72046586512026]
我々は,認知的深層不完全多視点クラスタリングネットワーク(CDIMC-net)という,新しい不完全多視点クラスタリングネットワークを提案する。
ビュー固有のディープエンコーダとグラフ埋め込み戦略をフレームワークに組み込むことで、各ビューの高レベルな特徴とローカル構造をキャプチャする。
人間の認知、すなわち、簡単からハードに学ぶことに基づいて、モデルトレーニングのための最も自信あるサンプルを選択するための自己評価戦略を導入する。
論文 参考訳(メタデータ) (2024-03-28T15:45:03Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - A Non-Parametric Bootstrap for Spectral Clustering [0.7673339435080445]
我々は,データ行列のスペクトル分解と非パラメトリックブートストラップサンプリング方式を組み合わせた2つの新しいアルゴリズムを開発した。
我々の手法は、有限混合モデルに適合する他のブートストラップアルゴリズムと比較して収束性においてより一貫性がある。
論文 参考訳(メタデータ) (2022-09-13T08:37:05Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - DG-LMC: A Turn-key and Scalable Synchronous Distributed MCMC Algorithm [21.128416842467132]
ユーザフレンドリな分散MCMCアルゴリズムを用いて,高次元設定でのスケーリングを実現する。
本稿では,合成実験および実データ実験における提案手法の有効性について述べる。
論文 参考訳(メタデータ) (2021-06-11T10:37:14Z) - Variational Combinatorial Sequential Monte Carlo Methods for Bayesian
Phylogenetic Inference [4.339931151475307]
Vari Combinatorial Monte Carlo (VCSMC) は複雑な構造について学習するための変分探索を確立する強力なフレームワークである。
本稿では,VCSMC と CSMC が,従来のタスクよりも高い確率空間を探索できることを示す。
論文 参考訳(メタデータ) (2021-05-31T19:44:24Z) - The effect of measurement error on clustering algorithms [0.0]
本稿では,2つの共通クラスタリングアルゴリズム,GMMとDBSCANのランダムおよび系統的誤りに対する感度について検討する。
測定誤差は、体系的である場合や、データセットのすべての変数に影響を与える場合など、特に問題となる。
ここでは, 結合成分を持つ分割型GMMは密度ベースDBSCAN法よりも測定誤差に敏感でないことも考察した。
論文 参考訳(メタデータ) (2020-05-24T13:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。