Fugu-MT 論文翻訳(概要): Data Aggregation for Hierarchical Clustering

論文の概要: Data Aggregation for Hierarchical Clustering

arxiv url: http://arxiv.org/abs/2309.02552v1
Date: Tue, 5 Sep 2023 19:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 17:46:14.977337
Title: Data Aggregation for Hierarchical Clustering
Title（参考訳）: 階層クラスタリングのためのデータ集約
Authors: Erich Schubert and Andreas Lang
Abstract要約: BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
参考スコア（独自算出の注目度）: 0.3626013617212666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hierarchical Agglomerative Clustering (HAC) is likely the earliest and most flexible clustering method, because it can be used with many distances, similarities, and various linkage strategies. It is often used when the number of clusters the data set forms is unknown and some sort of hierarchy in the data is plausible. Most algorithms for HAC operate on a full distance matrix, and therefore require quadratic memory. The standard algorithm also has cubic runtime to produce a full hierarchy. Both memory and runtime are especially problematic in the context of embedded or otherwise very resource-constrained systems. In this section, we present how data aggregation with BETULA, a numerically stable version of the well known BIRCH data aggregation algorithm, can be used to make HAC viable on systems with constrained resources with only small losses on clustering quality, and hence allow exploratory data analysis of very large data sets.
Abstract（参考訳）: 階層的集約クラスタリング(HAC)は、多くの距離、類似性、および様々なリンク戦略で使用できるため、最も早く、最も柔軟なクラスタリング法である可能性が高い。データセットが生成するクラスタの数が不明で、データの何らかの階層化が可能である場合、しばしば使用される。 HACのほとんどのアルゴリズムは完全距離行列で動作し、従って二次記憶を必要とする。標準アルゴリズムは、完全な階層を生成するためにキュービックランタイムも備えている。メモリとランタイムは、組み込みシステムやリソースに制約のあるシステムのコンテキストで特に問題となる。本稿では、よく知られたBIRCHデータ集約アルゴリズムの数値的安定バージョンであるBETULAによるデータ集約を用いて、クラスタリング品質に小さな損失しか与えない制約のあるリソースを持つシステムにおいて、HACを実行可能なものにし、非常に大きなデータセットの探索データ解析を可能にする方法について述べる。

関連論文リスト

Scalable Context-Preserving Model-Aware Deep Clustering for Hyperspectral Images [51.95768218975529]
ハイパースペクトル画像(HSI)の教師なし解析にサブスペースクラスタリングが広く採用されている。近年のモデル対応深層空間クラスタリング手法では、O(n2)の複雑性を持つ自己表現行列の計算とスペクトルクラスタリングを含む2段階のフレームワークを用いることが多い。本稿では,HSIクラスタリングを効率的に行うために,局所構造と非局所構造を協調的にキャプチャする,ベース表現に基づく拡張性のあるコンテキスト保存深層クラスタリング手法を提案する。
論文参考訳（メタデータ） (2025-06-12T16:43:09Z)
A system identification approach to clustering vector autoregressive time series [50.66782357329375]
基礎となる力学に基づく時系列のクラスタ化は、複雑なシステムモデリングを支援するために研究者を惹きつけている。現在の時系列クラスタリング手法のほとんどは、スカラー時系列のみを処理し、ホワイトノイズとして扱うか、高品質な特徴構築のためにドメイン知識に依存している。システム識別アプローチは、機能/測定構造に頼るのではなく、基礎となる自己回帰力学を明示的に考慮することで、ベクトル時系列クラスタリングを処理できる。
論文参考訳（メタデータ） (2025-05-20T14:31:44Z)
Hierarchical Clustering using Reversible Binary Cellular Automata for High-Dimensional Data [0.0]
セルオートマトン(CA)ベースのクラスタリングでは、2つのオブジェクトが同じサイクルに属している場合、それらは密接に関連しており、同じクラスタの一部であると考えられている。本稿では,各サイクルの各要素の中央値に基づいて,2つの異なるサイクルのオブジェクト間の関係を同定し,次の段階にグループ化できるようにする。様々なパフォーマンス指標を持つ標準ベンチマークデータセットに対して検証された場合、アルゴリズムは2次時間複雑性を持つ既存のアルゴリズムと同等である。
論文参考訳（メタデータ） (2024-08-05T05:48:45Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。本稿では,データ拡張を必要としない手法を提案する。
論文参考訳（メタデータ） (2023-03-29T08:23:26Z)
GBMST: An Efficient Minimum Spanning Tree Clustering Based on Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文参考訳（メタデータ） (2023-03-02T09:04:35Z)
Scalable Clustering: Large Scale Unsupervised Learning of Gaussian Mixture Models with Outliers [5.478764356647437]
本稿では,損失最小化に基づくロバストなクラスタリングアルゴリズムを提案する。これはアルゴリズムが高い確率で高い精度を得るという理論的保証を提供する。実世界の大規模データセットの実験では、アルゴリズムの有効性が示されている。
論文参考訳（メタデータ） (2023-02-28T14:39:18Z)
Genie: A new, fast, and outlier-resistant hierarchical clustering algorithm [3.7491936479803054]
我々はGenieと呼ばれる新しい階層的クラスタリングリンク基準を提案する。我々のアルゴリズムは、2つのクラスタを、選択された経済不平等尺度が与えられたしきい値を超えないようにリンクする。このアルゴリズムのリファレンス実装は、Rのためのオープンソースの'genie'パッケージに含まれている。
論文参考訳（メタデータ） (2022-09-13T06:42:53Z)
Meta Clustering Learning for Large-scale Unsupervised Person Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。 MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文参考訳（メタデータ） (2021-11-19T04:10:18Z)
Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。 RTKMは他の方法と競合することを示す。
論文参考訳（メタデータ） (2021-08-16T15:49:40Z)
Scaling Hierarchical Agglomerative Clustering to Billion-sized Datasets [0.0]
本稿では,並列クラスタを効率的にマージするための新しい戦略を用いて,HACの分散アルゴリズムであるReciprocal Agglomerative Clustering (RAC)を提案する。大規模な実験では、RACは1時間以内で数十億のエッジで接続された数十億のデータポイント上のHAC階層を復元できることを示す。
論文参考訳（メタデータ） (2021-05-25T04:14:21Z)
Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。 A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文参考訳（メタデータ） (2021-04-14T18:15:27Z)
Similarity-based Distance for Categorical Clustering using Space Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文参考訳（メタデータ） (2020-11-19T15:18:26Z)
Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文参考訳（メタデータ） (2020-04-09T12:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。