論文の概要: CMET: Clustering guided METric for quantifying embedding quality
- arxiv url: http://arxiv.org/abs/2507.04840v1
- Date: Mon, 07 Jul 2025 10:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.369817
- Title: CMET: Clustering guided METric for quantifying embedding quality
- Title(参考訳): CMET: 埋め込み品質の定量化のためのクラスタリングガイドMETric
- Authors: Sourav Ghosh, Chayan Maitra, Rajat K. De,
- Abstract要約: クラスタリングガイドMETric(CMET)は埋め込み品質を定量化する指標である。
CMETは, 局所的および大域的形状保存能力を測定する2つのスコア, viz., CMET_L, CMET_Gからなる。
その結果、CMETの最先端手法に対する良好な性能が反映された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to rapid advancements in technology, datasets are available from various domains. In order to carry out more relevant and appropriate analysis, it is often necessary to project the dataset into a higher or lower dimensional space based on requirement. Projecting the data in a higher-dimensional space helps in unfolding intricate patterns, enhancing the performance of the underlying models. On the other hand, dimensionality reduction is helpful in denoising data while capturing maximal information, as well as reducing execution time and memory.In this context, it is not always statistically evident whether the transformed embedding retains the local and global structure of the original data. Most of the existing metrics that are used for comparing the local and global shape of the embedding against the original one are highly expensive in terms of time and space complexity. In order to address this issue, the objective of this study is to formulate a novel metric, called Clustering guided METric (CMET), for quantifying embedding quality. It is effective to serve the purpose of quantitative comparison between an embedding and the original data. CMET consists of two scores, viz., CMET_L and CMET_G, that measure the degree of local and global shape preservation capability, respectively. The efficacy of CMET has been demonstrated on a wide variety of datasets, including four synthetic, two biological, and two image datasets. Results reflect the favorable performance of CMET against the state-of-the-art methods. Capability to handle both small and large data, low algorithmic complexity, better and stable performance across all kinds of data, and different choices of hyper-parameters feature CMET as a reliable metric.
- Abstract(参考訳): 技術の急速な進歩により、データセットはさまざまなドメインから利用できる。
より適切かつ適切な分析を行うためには、要求に基づいてデータセットを高次元あるいは低次元の空間に投影する必要があることが多い。
データを高次元空間に投影することで、複雑なパターンが展開され、基礎となるモデルの性能が向上する。
一方,デメンタリティの低減は,最大情報の取得や実行時間やメモリの削減に役立ち,変換した埋め込みが元のデータの局所的・大域的構造を保持するかどうかを統計的に示すことは必ずしもない。
埋め込みの局所的な形状とグローバルな形状を比較するのに使われている既存の指標のほとんどは、時間と空間の複雑さの点で非常に高価である。
本研究の目的は, 組込み品質を定量化するために, クラスタリングガイドMETric (CMET) と呼ばれる新しいメトリクスを定式化することである。
埋め込みと元のデータを定量的に比較することは効果的である。
CMETは, 局所的および大域的形状保存能力を測定する2つのスコア, CMET_L, CMET_Gからなる。
CMETの有効性は4つの合成、2つの生物学的、2つの画像データセットを含む様々なデータセットで実証されている。
その結果、CMETの最先端手法に対する良好な性能が反映された。
小規模データと大規模データの両方を扱う能力、アルゴリズムの複雑さの低さ、あらゆる種類のデータに対して優れた安定的なパフォーマンス、そしてハイパーパラメータの異なる選択は、CMETを信頼性のあるメトリックとして特徴付けている。
関連論文リスト
- Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - CBMAP: Clustering-based manifold approximation and projection for dimensionality reduction [0.0]
データ次元を減少させるために次元性低減法が用いられる。
本研究は,次元削減のためのクラスタリングに基づくアプローチであるCBMAPを紹介する。
CBMAPは、大域的構造と局所的構造の両方を保存することを目的としており、低次元空間のクラスターが高次元空間のクラスタと密接に類似していることを保証する。
論文 参考訳(メタデータ) (2024-04-27T15:44:21Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Scalable manifold learning by uniform landmark sampling and constrained
locally linear embedding [0.6144680854063939]
本研究では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習法を提案する。
異なるタイプの合成データセットと実世界のベンチマークにおけるSCMLの有効性を実証的に検証した。
scMLはデータサイズや埋め込み次元の増大とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - SQuadMDS: a lean Stochastic Quartet MDS improving global structure
preservation in neighbor embedding like t-SNE and UMAP [3.7731754155538164]
この研究は、N個のデータポイントを持つO(N)の時間と空間の複雑さを伴う多次元スケーリングへの強制的アプローチを導入する。
この方法は、t-SNEのような近隣の埋め込みのファミリーの強制的レイアウトと組み合わせて、データのグローバル構造とローカル構造の両方を保存する埋め込みを生成することができる。
論文 参考訳(メタデータ) (2022-02-24T13:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。