論文の概要: Sampling in Dirichlet Process Mixture Models for Clustering Streaming
Data
- arxiv url: http://arxiv.org/abs/2202.13312v1
- Date: Sun, 27 Feb 2022 08:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 12:29:20.063873
- Title: Sampling in Dirichlet Process Mixture Models for Clustering Streaming
Data
- Title(参考訳): クラスタリングストリーミングデータのためのディリクレプロセス混合モデルのサンプリング
- Authors: Or Dinari and Oren Freifeld
- Abstract要約: Dirichlet Process Mixture Model (DPMM)は、ストリーミングデータケースにとって自然な選択である。
オンラインDPMM推論のための既存の手法は、高速なデータストリームを扱うには遅すぎる。
本稿では,DPMMとDPMMサンプリングに基づくストリーミングデータクラスタリングのための非ストリーミング推論手法を提案する。
- 参考スコア(独自算出の注目度): 5.660207256468972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practical tools for clustering streaming data must be fast enough to handle
the arrival rate of the observations. Typically, they also must adapt on the
fly to possible lack of stationarity; i.e., the data statistics may be
time-dependent due to various forms of drifts, changes in the number of
clusters, etc. The Dirichlet Process Mixture Model (DPMM), whose Bayesian
nonparametric nature allows it to adapt its complexity to the data, seems a
natural choice for the streaming-data case. In its classical formulation,
however, the DPMM cannot capture common types of drifts in the data statistics.
Moreover, and regardless of that limitation, existing methods for online DPMM
inference are too slow to handle rapid data streams. In this work we propose
adapting both the DPMM and a known DPMM sampling-based non-streaming inference
method for streaming-data clustering. We demonstrate the utility of the
proposed method on several challenging settings, where it obtains
state-of-the-art results while being on par with other methods in terms of
speed.
- Abstract(参考訳): ストリーミングデータをクラスタリングするための実践的なツールは、観測の到着率を処理するのに十分な速度でなければならない。
一般的には、静止性の欠如に適応する必要があり、データ統計は様々なドリフト形態やクラスタ数の変化などにより時間に依存する可能性がある。
ベイジアン非パラメトリックな性質を持つディリクレ過程混合モデル(dpmm)は、その複雑性をデータに適応させることができるが、ストリーミングデータの場合、自然な選択である。
しかし、古典的な定式化では、DPMMはデータ統計学において一般的な種類のドリフトを捉えることができない。
さらに、その制限にかかわらず、オンラインDPMM推論の既存の手法は、高速なデータストリームを扱うには遅すぎる。
本研究では,DPMMと既知のDPMMサンプリングに基づくストリーミングデータクラスタリングのための非ストリーミング推論手法の両方を適用することを提案する。
提案手法は,提案手法が他の手法に匹敵する速さで動作しながら,最先端の処理結果が得られるような,難易度の高い設定で有効性を示す。
関連論文リスト
- Sequential Order-Robust Mamba for Time Series Forecasting [5.265578815577529]
MambaはTransformersに代わる有望な選択肢として登場し、シーケンシャルデータの処理において、ほぼ直線的な複雑さを提供する。
本稿では,データから生成された2つの埋め込みベクトルと逆チャネル順序との差を最小限に抑えるため,正規化戦略を取り入れたTS予測手法であるSOR-Mambaを提案する。
また,CDを捕捉する能力を高めるために,データ空間から潜在空間までのチャネル間の相関関係の保存を目的とした事前学習タスクであるチャネル相関モデリング(CCM)を導入する。
論文 参考訳(メタデータ) (2024-10-30T18:05:22Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models
in Federated Learning [0.22499166814992444]
本稿では,DPMM (DisCGS) のための分散マルコフ連鎖モンテカルロ (MCMC) 推論手法を提案する。
我々のアプローチでは、崩壊したGibbsサンプルラーを使用し、独立マシンと異種マシンの分散データを扱うように設計されています。
例えば、100Kのデータポイントのデータセットでは、中央集権的なアルゴリズムは100回のイテレーションを完了するのに約12時間かかります。
論文 参考訳(メタデータ) (2023-12-18T13:16:18Z) - A parsimonious, computationally efficient machine learning method for
spatial regression [0.0]
本研究では,空間的・時間的回帰のための物理的にインスパイアされた機械学習手法であるMPRS(Modified Planar rotator Method)を導入する。
MPRSは非パラメトリックモデルであり、基礎となる確率分布の特定の形式を仮定することなく、短距離、距離依存相互作用による空間的あるいは時間的相関を組み込む。
論文 参考訳(メタデータ) (2023-09-28T13:57:36Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - Model-based recursive partitioning for discrete event times [3.222802562733787]
データ分割に使用されるテストのI型エラー率を制御する離散生存データ(MOB-dS)のMOBを提案する。
テストのI型誤差率はMOB-dSに対してよく制御されているが,MOBの誤差率のかなりのインフレーションが観察されている。
論文 参考訳(メタデータ) (2022-09-14T12:17:56Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。