論文の概要: CLiMB: A Domain-Informed Novelty Detection Clustering Framework for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2601.09768v1
- Date: Wed, 14 Jan 2026 11:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.849977
- Title: CLiMB: A Domain-Informed Novelty Detection Clustering Framework for Scientific Discovery
- Title(参考訳): CLiMB: 科学的発見のためのドメインインフォームドノベルティ検出クラスタリングフレームワーク
- Authors: Lorenzo Monti, Tatiana Muraveva, Brian Sheridan, Davide Massari, Alessia Garofalo, Gisella Clementini, Umberto Michelucci,
- Abstract要約: CLiMBはドメイン・インフォームド・クラスタリングのためのドメイン・インフォームド・フレームワークである。
未知の構造物の探査から事前の知識を利用する。
CLiMBは、既知の銀河系のサブストラクチャの回復において90%のシードカバレッジを持つ0.829の調整されたランダムインデックスを達成している。
- 参考スコア(独自算出の注目度): 1.0554048699217669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In data-driven scientific discovery, a challenge lies in classifying well-characterized phenomena while identifying novel anomalies. Current semi-supervised clustering algorithms do not always fully address this duality, often assuming that supervisory signals are globally representative. Consequently, methods often enforce rigid constraints that suppress unanticipated patterns or require a pre-specified number of clusters, rendering them ineffective for genuine novelty detection. To bridge this gap, we introduce CLiMB (CLustering in Multiphase Boundaries), a domain-informed framework decoupling the exploitation of prior knowledge from the exploration of unknown structures. Using a sequential two-phase approach, CLiMB first anchors known clusters using constrained partitioning, and subsequently applies density-based clustering to residual data to reveal arbitrary topologies. We demonstrate this framework on RR Lyrae stars data from the Gaia Data Release 3. CLiMB attains an Adjusted Rand Index of 0.829 with 90% seed coverage in recovering known Milky Way substructures, drastically outperforming heuristic and constraint-based baselines, which stagnate below 0.20. Furthermore, sensitivity analysis confirms CLiMB's superior data efficiency, showing monotonic improvement as knowledge increases. Finally, the framework successfully isolates three dynamical features (Shiva, Shakti, and the Galactic Disk) in the unlabelled field, validating its potential for scientific discovery.
- Abstract(参考訳): データ駆動による科学的発見では、新しい異常を識別しながら、良好な特性の現象を分類することが課題である。
現在の半教師付きクラスタリングアルゴリズムは必ずしもこの双対性に完全に対処するわけではない。
その結果、予測外のパターンを抑圧したり、事前に指定された数のクラスタを必要とするような厳格な制約が課されることが多く、真の新規性検出には効果がない。
このギャップを埋めるために、未知構造探索から事前知識の活用を分離するドメインインフォームドフレームワークであるCLiMB(Clustering in Multiphase Boundaries)を導入する。
逐次二相法を用いて、CLiMBはまず制約付きパーティショニングを用いて既知のクラスタをアンカーし、その後、残留データに密度ベースのクラスタリングを適用して任意のトポロジーを明らかにする。
RR Lyraeのこのフレームワークは、Gaia Data Release 3から得られたデータを実証する。
CLiMBは、既知の銀河系サブストラクチャの回復において90%のシードカバレッジを持つ0.829の調整されたランダム指数を達成し、0.20未満で停滞するヒューリスティックおよび制約ベースのベースラインを大幅に上回っている。
さらに、感度解析はCLiMBの優れたデータ効率を確認し、知識の増加とともに単調な改善を示す。
最後に、このフレームワークは3つの動的特徴(シヴァ、シャクティ、ギャラクティックディスク)を未発達の領域で分離し、科学的発見の可能性を検証することに成功している。
関連論文リスト
- Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Hyperbolic Gaussian Blurring Mean Shift: A Statistical Mode-Seeking Framework for Clustering in Curved Spaces [15.555757275390846]
クラスタリングは、データのパターンを明らかにするための基本的な教師なしの学習タスクである。
本稿では,双曲空間へのGBMSの新たな拡張であるHypeGBMSを紹介する。
我々の手法はユークリッド計算を双曲距離に置き換え、すべての更新が空間の幾何学と整合性を保つためにMbius重み付き手段を用いる。
論文 参考訳(メタデータ) (2025-12-12T10:40:26Z) - Reliable data clustering with Bayesian community detection [0.0]
研究者たちはモジュール構造を明らかにするために、クラスタリングの類似性データに依存している。
しかし、階層クラスタリング、k平均、WGCNAといった広く使われているクラスタリング手法では、基本モデル選択が欠如しており、ノイズの影響を受けやすい。
一般的な回避策は相関行列表現をスパースしてクラスタリング前にノイズを除去するが、この余分なステップは任意のしきい値を導入し、構造を歪め、信頼できない結果をもたらす。
論文 参考訳(メタデータ) (2025-10-16T14:10:24Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Cluster Quilting: Spectral Clustering for Patchwork Learning [8.500141848121782]
我々は、パッチワーク学習におけるクラスタリングの問題に焦点をあて、何らかの機能に対して共同で観測されない場合であっても、すべてのサンプル間のクラスタを見つけることを目的としている。
本稿では, (i) パッチ間の重なり構造を利用するパッチ順序付け, (ii) パッチワイズSVD, (iii) パッチオーバーラップのためのトップ特異ベクトルの逐次線形マッピング, (iv) 結合および重み付き特異ベクトル上のk-meansからなる新しいスペクトルクラスタリング手法を提案する。
準ガウス混合モデルの下では、両者を反映する非漸近的誤クラスタリング率による理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-19T20:52:47Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Learning for Transductive Threshold Calibration in Open-World Recognition [83.35320675679122]
グラフニューラルネットワークを用いた高剛性と適応性を有するトランスダクティブしきい値キャリブレーション法であるOpenGCNを導入する。
オープンワールドの視覚認識ベンチマークにおける実験は、オープンワールドのしきい値校正のための既存のポストホック校正方法よりもOpenGCNの方が優れていることを検証する。
論文 参考訳(メタデータ) (2023-05-19T23:52:48Z) - CycleCluster: Modernising Clustering Regularisation for Deep
Semi-Supervised Classification [0.0]
深層半教師付き分類のための新しいフレームワークであるCycleClusterを提案する。
我々のコア最適化は、グラフベースの擬似ラベルと共有深層ネットワークとともに、新たなクラスタリングベースの正規化によって推進されます。
論文 参考訳(メタデータ) (2020-01-15T13:34:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。