論文の概要: A Data-Informed Variational Clustering Framework for Noisy High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2604.06864v1
- Date: Wed, 08 Apr 2026 09:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.450974
- Title: A Data-Informed Variational Clustering Framework for Noisy High-Dimensional Data
- Title(参考訳): ノイズの多い高次元データのためのデータインフォームド変分クラスタリングフレームワーク
- Authors: Wan Ping Chen,
- Abstract要約: DIVIは、グローバル機能ゲーティングと分割ベースの適応型構造成長を組み合わせた、データインフォームの変動クラスタリングフレームワークである。
その結果、DIVIは厳しい特徴雑音下で競合的に動作し、計算可能のままであり、解釈可能な特徴ゲーティング動作が得られることがわかった。
全体として、DIVIはベイズ生成の完全な解というよりは、ノイズの多い高次元データのための実用的な変動クラスタリングフレームワークであると見なされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering in high-dimensional settings with severe feature noise remains challenging, especially when only a small subset of dimensions is informative and the final number of clusters is not specified in advance. In such regimes, partition recovery, feature relevance learning, and structural adaptation are tightly coupled, and standard likelihood-based methods can become unstable or overly sensitive to noisy dimensions. We propose DIVI, a data-informed variational clustering framework that combines global feature gating with split-based adaptive structure growth. DIVI uses informative prior initialization to stabilize optimization, learns feature relevance in a differentiable manner, and expands model complexity only when local diagnostics indicate underfit. Beyond clustering performance, we also examine runtime scalability and parameter sensitivity in order to clarify the computational and practical behavior of the framework. Empirically, we find that DIVI performs competitively under severe feature noise, remains computationally feasible, and yields interpretable feature-gating behavior, while also exhibiting conservative growth and identifiable failure regimes in challenging settings. Overall, DIVI is best viewed as a practical variational clustering framework for noisy high-dimensional data rather than as a fully Bayesian generative solution.
- Abstract(参考訳): 厳密な特徴雑音を伴う高次元設定でのクラスタリングは、特に少数の次元のサブセットだけが情報であり、最終的なクラスタ数が事前に指定されていない場合、依然として困難である。
このような状況下では、分割回復、特徴関連学習、構造適応が緊密に結合され、標準的可能性に基づく手法はノイズに不安定または過度に敏感になる可能性がある。
グローバルな特徴ゲーティングと分割型適応型構造成長を組み合わせたデータインフォーム型変分クラスタリングフレームワークであるDIVIを提案する。
DIVIは情報的事前初期化を使用して最適化を安定化し、特徴の関連性を異なる方法で学習し、局所的な診断が不適当である場合にのみ、モデルの複雑さを拡大する。
また,クラスタリング性能だけでなく,実行時のスケーラビリティやパラメータの感度も検討して,フレームワークの計算的および実践的挙動を明らかにする。
実験的に、DIVIは厳しい特徴雑音の下で競争的に機能し、計算可能でありながら、解釈可能な特徴ゲーティング行動をもたらし、また、困難な状況下では保守的な成長と識別可能な障害状態を示す。
全体として、DIVIはベイズ生成の完全な解というよりは、ノイズの多い高次元データのための実用的な変動クラスタリングフレームワークであると見なされている。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - NeuralFLoC: Neural Flow-Based Joint Registration and Clustering of Functional Data [3.4960553691816005]
textNeuralFLoCは、統合機能登録とクラスタリングのための、完全に教師なし、エンドツーエンドのディープラーニングフレームワークである。
機能ベンチマークの実験では、登録とクラスタリングの両方で最先端のパフォーマンスを示し、データの欠如、不規則なサンプリング、ノイズに対して堅牢性を保ちながら、スケーラビリティを維持している。
論文 参考訳(メタデータ) (2026-02-03T06:35:33Z) - Scalable Robust Bayesian Co-Clustering with Compositional ELBOs [2.6756996523251964]
共クラスタリングは、両方の次元において有意義なグループを明らかにするために、インスタンスと機能の双対性を利用する。
本稿では,列クラスタと列クラスタを直接学習する,完全変動型クラスタリングフレームワークについて紹介する。
提案手法は, 従来のコクラスタリング手法の利点を保ちながら, 精度とロバスト性にも優れる。
論文 参考訳(メタデータ) (2025-04-05T06:48:05Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data [17.411028691739897]
大規模・高次元データに対して一様および識別的埋め込み(SUDE)を可能にする,サンプリングベースでスケーラブルな多様体学習手法を提案する。
合成データセットと実世界のベンチマークにおけるSUDEの有効性を実証的に検証し, 単細胞データの解析と心電図信号の異常検出に応用した。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。