論文の概要: Robust Clustering on High-Dimensional Data with Stochastic Quantization
- arxiv url: http://arxiv.org/abs/2409.02066v4
- Date: Tue, 12 Nov 2024 09:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:15.858626
- Title: Robust Clustering on High-Dimensional Data with Stochastic Quantization
- Title(参考訳): 確率量子化を用いた高次元データのロバストクラスタリング
- Authors: Anton Kozyriev, Vladimir Norkin,
- Abstract要約: 本稿では,従来のベクトル量子化アルゴリズムの限界に対処する。
量子化(SQ)を高次元計算の代替として検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper addresses the limitations of conventional vector quantization algorithms, particularly K-Means and its variant K-Means++, and investigates the Stochastic Quantization (SQ) algorithm as a scalable alternative for high-dimensional unsupervised and semi-supervised learning tasks. Traditional clustering algorithms often suffer from inefficient memory utilization during computation, necessitating the loading of all data samples into memory, which becomes impractical for large-scale datasets. While variants such as Mini-Batch K-Means partially mitigate this issue by reducing memory usage, they lack robust theoretical convergence guarantees due to the non-convex nature of clustering problems. In contrast, the Stochastic Quantization algorithm provides strong theoretical convergence guarantees, making it a robust alternative for clustering tasks. We demonstrate the computational efficiency and rapid convergence of the algorithm on an image classification problem with partially labeled data, comparing model accuracy across various ratios of labeled to unlabeled data. To address the challenge of high dimensionality, we employ a Triplet Network to encode images into low-dimensional representations in a latent space, which serve as a basis for comparing the efficiency of both the Stochastic Quantization algorithm and traditional quantization algorithms. Furthermore, we enhance the algorithm's convergence speed by introducing modifications with an adaptive learning rate.
- Abstract(参考訳): 本稿では,従来のベクトル量子化アルゴリズム,特にK-Meansとその変種K-Means++の限界に対処し,SQアルゴリズムを高次元教師なし・半教師付き学習タスクのスケーラブルな代替手段として検討する。
従来のクラスタリングアルゴリズムは、計算中の非効率なメモリ利用に悩まされることが多く、すべてのデータサンプルをメモリにロードする必要があるため、大規模なデータセットでは実用的ではない。
Mini-Batch K-Meansのような変種は、メモリ使用量の削減によってこの問題を部分的に緩和するが、クラスタリング問題の非凸性に起因する堅牢な理論的収束保証は欠如している。
対照的に、確率量子化アルゴリズムは強力な理論的収束保証を提供し、クラスタリングタスクの堅牢な代替となる。
本研究では,ラベル付きデータとラベル付きデータの様々な比率でモデル精度を比較し,部分ラベル付きデータを用いた画像分類問題に対して,アルゴリズムの計算効率と迅速な収束性を実証する。
高次元化の課題に対処するため,我々は,Stochastic Quantizationアルゴリズムと従来の量子化アルゴリズムの両アルゴリズムの効率を比較する基盤となる,潜時空間の低次元表現に画像をエンコードするトリプレットネットワークを用いた。
さらに,適応学習率による修正を導入することにより,アルゴリズムの収束速度を向上させる。
関連論文リスト
- Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Accelerated Doubly Stochastic Gradient Algorithm for Large-scale
Empirical Risk Minimization [23.271890743506514]
本稿では,学習課題に対する大規模経験的リスク最小化問題を解くために,新たな高速化マルチモーメンタム手法を用いた二重アルゴリズムを提案する。
絶対的に優れた収束率を享受しながら、各イテレーションにおいて、そのようなアルゴリズムはサンプルの小さなバッチにのみアクセスし、変数座標の小さなブロックを更新する。
論文 参考訳(メタデータ) (2023-04-23T14:21:29Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Quantum Algorithms for Data Representation and Analysis [68.754953879193]
機械学習におけるデータ表現のための固有problemsの解を高速化する量子手続きを提供する。
これらのサブルーチンのパワーと実用性は、主成分分析、対応解析、潜在意味解析のための入力行列の大きさのサブ線形量子アルゴリズムによって示される。
その結果、入力のサイズに依存しない実行時のパラメータは妥当であり、計算モデル上の誤差が小さいことが示され、競合的な分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-19T00:41:43Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Progressive Batching for Efficient Non-linear Least Squares [31.082253632197023]
ガウス・ニュートンの基本的な改良のほとんどは、基礎となる問題構造の空間性を保証するか、あるいは活用して計算速度を上げることである。
我々の研究は、機械学習と統計の両方からアイデアを借用し、収束を保証するとともに、必要な計算量を大幅に削減する非線形最小二乗に対するアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-21T13:00:04Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval [11.988383965639954]
クロスモーダルハッシュ法は異種モダリティ間の類似性検索において広く注目を集めている。
本稿では,ACQH法について述べる。
また,不均一なモダリティデータポイントのプロジェクション行列を学習し,クエリを潜在意味空間内の低次元実数値ベクトルに変換する。
学習された実数値コードワードの連続でデータベースポイントを示すために、粗大な方法で埋め込みを積み重ねた合成量子化を構成する。
論文 参考訳(メタデータ) (2020-01-14T04:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。