論文の概要: Fast-VAT: Accelerating Cluster Tendency Visualization using Cython and Numba
- arxiv url: http://arxiv.org/abs/2507.15904v1
- Date: Mon, 21 Jul 2025 11:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.806381
- Title: Fast-VAT: Accelerating Cluster Tendency Visualization using Cython and Numba
- Title(参考訳): Fast-VAT: Cython と Numba を用いたクラスタ傾向の可視化
- Authors: MSR Avinash, Ismael Lachheb,
- Abstract要約: 本稿では,PythonにおけるVAT(Visual Assessment of Cluster Tendency)アルゴリズムの高性能な再実装であるFast-VATを提案する。
提案手法は,提案手法の出力精度を保ちながら,ベースライン実装の最大50倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Assessment of Cluster Tendency (VAT) is a widely used unsupervised technique to assess the presence of cluster structure in unlabeled datasets. However, its standard implementation suffers from significant performance limitations due to its O(n^2) time complexity and inefficient memory usage. In this work, we present Fast-VAT, a high-performance reimplementation of the VAT algorithm in Python, augmented with Numba's Just-In-Time (JIT) compilation and Cython's static typing and low-level memory optimizations. Our approach achieves up to 50x speedup over the baseline implementation, while preserving the output fidelity of the original method. We validate Fast-VAT on a suite of real and synthetic datasets -- including Iris, Mall Customers, and Spotify subsets -- and verify cluster tendency using Hopkins statistics, PCA, and t-SNE. Additionally, we compare VAT's structural insights with clustering results from DBSCAN and K-Means to confirm its reliability.
- Abstract(参考訳): VAT(Visual Assessment of Cluster Tendency)は、ラベルなしデータセットにおけるクラスタ構造の存在を評価するための、広く使われている教師なしのテクニックである。
しかし、その標準実装は、O(n^2)時間複雑さと非効率なメモリ使用量のために、大幅な性能制限に悩まされている。
本稿では,PythonにおけるVATアルゴリズムの高速再実装であるFast-VATを紹介し,NumbaのJust-In-Time(JIT)コンパイルとCythonの静的型付けと低レベルメモリ最適化を併用した。
提案手法は,提案手法の出力精度を保ちながら,ベースライン実装の最大50倍の高速化を実現する。
我々は、Iris、Mall Customers、Spotifyサブセットを含む、実データと合成データセットのスイート上でFast-VATを検証するとともに、Hopkins統計、PCA、t-SNEを使用してクラスタ傾向を検証する。
さらに,VATの構造的洞察とDBSCANとK-Meansのクラスタリング結果を比較し,信頼性を確認した。
関連論文リスト
- Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation [59.1067331268383]
TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
論文 参考訳(メタデータ) (2025-08-05T12:40:55Z) - A system identification approach to clustering vector autoregressive time series [50.66782357329375]
基礎となる力学に基づく時系列のクラスタ化は、複雑なシステムモデリングを支援するために研究者を惹きつけている。
現在の時系列クラスタリング手法のほとんどは、スカラー時系列のみを処理し、ホワイトノイズとして扱うか、高品質な特徴構築のためにドメイン知識に依存している。
システム識別アプローチは、機能/測定構造に頼るのではなく、基礎となる自己回帰力学を明示的に考慮することで、ベクトル時系列クラスタリングを処理できる。
論文 参考訳(メタデータ) (2025-05-20T14:31:44Z) - Locally Adaptive One-Class Classifier Fusion with Dynamic $\ell$p-Norm Constraints for Robust Anomaly Detection [17.93058599783703]
局所的なデータ特性に基づいて,融合重みを動的に調整するフレームワークを提案する。
本手法は,計算効率を大幅に向上させる内部点最適化手法を取り入れたものである。
計算効率を維持しながらローカルなデータパターンに適応できるフレームワークの能力は、リアルタイムアプリケーションに特に有用である。
論文 参考訳(メタデータ) (2024-11-10T09:57:13Z) - CAST: Clustering Self-Attention using Surrogate Tokens for Efficient
Transformers [3.129187821625805]
本稿では,Surrogate Tokens (CAST) を用いたクラスタリング自己注意機構を提案する。
CASTは複雑性を$O(N2)$から$O(アルファN)$に減らして効率を向上する。
論文 参考訳(メタデータ) (2024-02-06T18:47:52Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Structured Inverted-File k-Means Clustering for High-Dimensional Sparse
Data [2.487445341407889]
本稿では,大規模かつ高次元スパースデータセットのためのアーキテクチャフレンドリーなk-meansクラスタリングアルゴリズムsivfを提案する。
性能解析の結果,sivfはキャッシュミス数と分岐予測の精度低下係数を低減し,高い速度を実現していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T07:54:02Z) - ConiVAT: Cluster Tendency Assessment and Clustering with Partial
Background Knowledge [11.600065064765325]
ConiVATは制約ベースのiVATで、制約の形でバックグラウンド知識を利用する。
本研究では,9つのデータセット上での視覚的アセスメントと単一リンククラスタリングに対するConiVATアプローチを実証する。
論文 参考訳(メタデータ) (2020-08-21T16:30:31Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。