論文の概要: Autoencoder-based Semi-Supervised Dimensionality Reduction and Clustering for Scientific Ensembles
- arxiv url: http://arxiv.org/abs/2512.11145v1
- Date: Thu, 11 Dec 2025 22:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.587003
- Title: Autoencoder-based Semi-Supervised Dimensionality Reduction and Clustering for Scientific Ensembles
- Title(参考訳): オートエンコーダを用いた科学的アンサンブルのための半監督次元削減とクラスタリング
- Authors: Lennard Manuel, Hamid Gadirov, Steffen Frey,
- Abstract要約: 本稿では,ソフトシルエットスコアをベースとしたクラスタリング損失と,アンサンブルデータセットの可視化と解釈性向上のためのコントラスト損失を組み合わせた,拡張されたオートエンコーダフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.185867802485678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing and visualizing scientific ensemble datasets with high dimensionality and complexity poses significant challenges. Dimensionality reduction techniques and autoencoders are powerful tools for extracting features, but they often struggle with such high-dimensional data. This paper presents an enhanced autoencoder framework that incorporates a clustering loss, based on the soft silhouette score, alongside a contrastive loss to improve the visualization and interpretability of ensemble datasets. First, EfficientNetV2 is used to generate pseudo-labels for the unlabeled portions of the scientific ensemble datasets. By jointly optimizing the reconstruction, clustering, and contrastive objectives, our method encourages similar data points to group together while separating distinct clusters in the latent space. UMAP is subsequently applied to this latent representation to produce 2D projections, which are evaluated using the silhouette score. Multiple types of autoencoders are evaluated and compared based on their ability to extract meaningful features. Experiments on two scientific ensemble datasets - channel structures in soil derived from Markov chain Monte Carlo, and droplet-on-film impact dynamics - show that models incorporating clustering or contrastive loss marginally outperform the baseline approaches.
- Abstract(参考訳): 科学的アンサンブルデータセットを高次元と複雑さで分析し視覚化することは、大きな課題となる。
次元化技術とオートエンコーダは特徴を抽出する強力なツールであるが、そのような高次元データに苦しむことが多い。
本稿では,ソフトシルエットスコアをベースとしたクラスタリング損失と,アンサンブルデータセットの可視化と解釈性向上のためのコントラスト損失を組み合わせた,拡張されたオートエンコーダフレームワークを提案する。
まず、EfficientNetV2を使用して、科学アンサンブルデータセットの未ラベル部分の擬似ラベルを生成する。
再構成,クラスタリング,コントラスト目的を共同で最適化することにより,類似したデータポイントをグループ化し,遅延空間内の異なるクラスタを分離する。
その後、この潜在表現にUMAPを適用して2次元投影を生成し、シルエットスコアを用いて評価する。
意味のある特徴を抽出する能力に基づいて,複数種類のオートエンコーダを評価し,比較する。
2つの科学的アンサンブルデータセット(マルコフ連鎖モンテカルロに由来する土壌のチャネル構造、および液滴対フィルムの衝撃力学)の実験により、クラスタリングや対照的な損失を含むモデルがベースラインアプローチをわずかに上回っていることが示された。
関連論文リスト
- Unsupervised Deep Clustering of MNIST with Triplet-Enhanced Convolutional Autoencoders [0.0]
本研究は、MNIST手書き桁のための高度な教師なしクラスタリングシステムを実装した。
ディープ・ニューラル・オートエンコーダは、画像の最小でも解釈可能な表現を開発するために、フェーズ1のトレーニングプロセスを必要とする。
論文 参考訳(メタデータ) (2025-06-11T18:26:13Z) - Leveraging Multi-Modal Information to Enhance Dataset Distillation [9.251951276795255]
本稿では, キャプション誘導型監視とオブジェクト中心マスキングの2つの重要な拡張点について紹介する。
テキスト情報を統合するために,キャプション機能を利用する2つの手法を提案する。
包括的評価は、キャプションベースのガイダンスとオブジェクト中心マスキングを組み合わせることで、データセットの蒸留が促進されることを示している。
論文 参考訳(メタデータ) (2025-05-13T14:20:11Z) - Autoencoded UMAP-Enhanced Clustering for Unsupervised Learning [49.1574468325115]
本稿では,低次元空間にデータを非線形に埋め込み,次に従来のクラスタリングアルゴリズムを用いて非教師なし学習を行う手法を提案する。
この埋め込みはデータのクラスタビリティを促進し、オートエンコーダニューラルネットワークのエンコーダとUMAPアルゴリズムの出力の2つのマッピングで構成されている。
MNISTデータに適用した場合、AUECはクラスタリング精度において最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-13T22:30:38Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Deep Clustering Using the Soft Silhouette Score: Towards Compact and
Well-Separated Clusters [0.0]
我々はシルエット係数の確率的定式化であるソフトシルエットを提案する。
本稿では,ソフトシルエット目的関数の最適化に適した,オートエンコーダに基づくディープラーニングアーキテクチャを提案する。
提案したディープクラスタリング手法は、様々なベンチマークデータセット上でよく研究されたディープクラスタリング手法と比較された。
論文 参考訳(メタデータ) (2024-02-01T14:02:06Z) - Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data [17.411028691739897]
大規模・高次元データに対して一様および識別的埋め込み(SUDE)を可能にする,サンプリングベースでスケーラブルな多様体学習手法を提案する。
合成データセットと実世界のベンチマークにおけるSUDEの有効性を実証的に検証し, 単細胞データの解析と心電図信号の異常検出に応用した。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。