論文の概要: Why Can't I See My Clusters? A Precision-Recall Approach to Dimensionality Reduction Validation
- arxiv url: http://arxiv.org/abs/2509.04222v1
- Date: Thu, 04 Sep 2025 13:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.178469
- Title: Why Can't I See My Clusters? A Precision-Recall Approach to Dimensionality Reduction Validation
- Title(参考訳): なぜクラスタを見ることができないのか? -次元化検証への高精度リコールアプローチ-
- Authors: Diede P. M. van der Hoorn, Alessio Arleo, Fernando V. Paulovich,
- Abstract要約: 次元性低減(DR)は高次元データを可視化するために広く使われており、しばしば期待されるクラスタ構造を明らかにすることを目的としている。
既存のDR品質メトリクスは、予測の信頼性(ある程度)やクラスタ構造の品質を評価しますが、期待される構造が欠けている理由を説明していません。
本稿では,DR過程を類似性関係をモデル化した関係フェーズと,データの投影を行うマッピングフェーズの2つのフェーズに分割した最近のフレームワークを活用することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 46.5272770104348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dimensionality Reduction (DR) is widely used for visualizing high-dimensional data, often with the goal of revealing expected cluster structure. However, such a structure may not always appear in the projections. Existing DR quality metrics assess projection reliability (to some extent) or cluster structure quality, but do not explain why expected structures are missing. Visual Analytics solutions can help, but are often time-consuming due to the large hyperparameter space. This paper addresses this problem by leveraging a recent framework that divides the DR process into two phases: a relationship phase, where similarity relationships are modeled, and a mapping phase, where the data is projected accordingly. We introduce two supervised metrics, precision and recall, to evaluate the relationship phase. These metrics quantify how well the modeled relationships align with an expected cluster structure based on some set of labels representing this structure. We illustrate their application using t-SNE and UMAP, and validate the approach through various usage scenarios. Our approach can guide hyperparameter tuning, uncover projection artifacts, and determine if the expected structure is captured in the relationships, making the DR process faster and more reliable.
- Abstract(参考訳): 次元性低減(DR)は高次元データを可視化するために広く使われており、しばしば期待されるクラスタ構造を明らかにすることを目的としている。
しかし、そのような構造が常に射影に現れるとは限らない。
既存のDR品質メトリクスは、予測の信頼性(ある程度)やクラスタ構造の品質を評価しますが、期待される構造が欠けている理由を説明していません。
Visual Analyticsソリューションは役に立ちますが、大きなハイパーパラメータスペースのため、しばしば時間がかかります。
本稿では,DR過程を類似性関係をモデル化した関係フェーズと,データの投影を行うマッピングフェーズの2つのフェーズに分割した最近のフレームワークを活用することで,この問題に対処する。
相関フェーズを評価するために,2つの教師付きメトリクス,精度とリコールを導入する。
これらのメトリクスは、モデル化された関係が、この構造を表すラベルのセットに基づいて、期待されるクラスタ構造とどの程度うまく一致しているかを定量化します。
本稿では, t-SNE と UMAP を用いてアプリケーションを作成し, 様々な利用シナリオによるアプローチの検証を行う。
提案手法は,ハイパーパラメータチューニングのガイド,プロジェクションアーティファクトの発見,および期待される構造が関係で捕捉されているかどうかを判断することにより,DRプロセスの高速化と信頼性の向上を実現する。
関連論文リスト
- A Survey of Dimension Estimation Methods [0.0]
データの実際の次元を理解することは重要である。
本調査では, 様々な次元推定手法を概観し, 利用した幾何学的情報を用いて分類する。
本研究は, 曲率, 騒音に対する各種応答の検討とともに, これらの手法の性能評価を行う。
論文 参考訳(メタデータ) (2025-07-18T13:05:42Z) - Measuring the Predictability of Recommender Systems using Structural Complexity Metrics [0.6429591199690016]
本研究では,ユーザ・イテム評価行列の構造的複雑さに基づいて,RSの予測可能性を測定するためのデータ駆動メトリクスを提案する。
予測可能性の低いスコアは、複雑で予測不可能なユーザとイテムのインタラクションを示し、高い予測可能性スコアは予測可能性を持つより複雑なパターンを明らかにします。
論文 参考訳(メタデータ) (2024-04-12T22:00:27Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - PromptORE -- A Novel Approach Towards Fully Unsupervised Relation
Extraction [0.0]
教師なし関係抽出(RE)は、トレーニング中にラベル付きデータにアクセスすることなく、テキスト内のエンティティ間の関係を識別することを目的としている。
本稿では,'Prompt-based Open Relation extract'モデルであるPromptOREを提案する。
我々は、新しいプロンプトチューニングパラダイムを教師なしの設定に適応させ、関係を表す文を埋め込む。
PromptOREは,B,V,ARIの40%以上の増加率を持つ最先端モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2023-03-24T12:55:35Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Design of Compressed Sensing Systems via Density-Evolution Framework for
Structure Recovery in Graphical Models [10.667885727418705]
観測データからベイズネットワークの構造を学習することはNP-Hard問題であることが示されている。
圧縮線形測定システムを最適化するための新しい密度進化に基づくフレームワークを提案する。
GBNの構造は実際に圧縮された測定結果から復元可能であることを示す。
論文 参考訳(メタデータ) (2022-03-17T22:16:38Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。