論文の概要: Data Skeleton Learning: Scalable Active Clustering with Sparse Graph Structures
- arxiv url: http://arxiv.org/abs/2509.08530v1
- Date: Wed, 10 Sep 2025 12:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.416007
- Title: Data Skeleton Learning: Scalable Active Clustering with Sparse Graph Structures
- Title(参考訳): データスケルトン学習 - スパースグラフ構造によるスケーラブルなアクティブクラスタリング
- Authors: Wen-Bo Xie, Xun Fu, Bin Chen, Yan-Li Lee, Tao Deng, Tian Zou, Xin Wang, Zhen Liu, Jaideep Srivastavad,
- Abstract要約: 2つのスパースグラフを利用するグラフベースのアクティブクラスタリングアルゴリズムを提案する。
これら2つのグラフは協調して動作し、データスケルトン内の連結サブグラフを洗練してネストクラスタを生成することができる。
我々の経験的分析により,提案アルゴリズムはユーザによる制約の入力を劇的に減らし,より正確なクラスタリングを容易にすることが確認された。
- 参考スコア(独自算出の注目度): 14.417696261026492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on the efficiency and scalability of pairwise constraint-based active clustering, crucial for processing large-scale data in applications such as data mining, knowledge annotation, and AI model pre-training. Our goals are threefold: (1) to reduce computational costs for iterative clustering updates; (2) to enhance the impact of user-provided constraints to minimize annotation requirements for precise clustering; and (3) to cut down memory usage in practical deployments. To achieve these aims, we propose a graph-based active clustering algorithm that utilizes two sparse graphs: one for representing relationships between data (our proposed data skeleton) and another for updating this data skeleton. These two graphs work in concert, enabling the refinement of connected subgraphs within the data skeleton to create nested clusters. Our empirical analysis confirms that the proposed algorithm consistently facilitates more accurate clustering with dramatically less input of user-provided constraints, and outperforms its counterparts in terms of computational performance and scalability, while maintaining robustness across various distance metrics.
- Abstract(参考訳): 本研究では,データマイニング,知識アノテーション,AIモデル事前学習などのアプリケーションにおける大規模データ処理に不可欠な,ペアワイズ制約に基づくアクティブクラスタリングの効率性とスケーラビリティに着目した。
1)反復的クラスタリング更新の計算コストを削減すること,(2)正確なクラスタリングのアノテーション要件を最小限に抑えるためにユーザが提供する制約の影響を強化すること,(3)実用的なデプロイメントにおけるメモリ使用量を削減すること,である。
これらの目的を達成するために,2つのスパースグラフを利用するグラフベースのアクティブクラスタリングアルゴリズムを提案し,その1つはデータ間の関係(提案データスケルトン)を表現し,もう1つはデータスケルトンを更新する。
これら2つのグラフは協調して動作し、データスケルトン内の連結サブグラフを洗練してネストクラスタを生成することができる。
実験分析により,提案アルゴリズムは,ユーザが提供する制約の入力を劇的に少なくして,より正確なクラスタリングを継続的に促進し,計算性能とスケーラビリティの点でその性能を向上するとともに,様々な距離のメトリクスにわたって堅牢性を維持していることを確認した。
関連論文リスト
- A Clustering Method with Graph Maximum Decoding Information [6.11503045313947]
本稿では,CMDIと呼ばれるグラフベースモデルにおけるデコード情報の最大化のための新しいクラスタリング手法を提案する。
CMDIは2次元構造情報理論を、グラフ構造抽出とグラフ分割という2つのフェーズからなるクラスタリングプロセスに組み込んでいる。
3つの実世界のデータセットに対する実証的な評価は、CMDIが古典的ベースライン法より優れており、より優れた復号化情報比(DI-R)を示すことを示している。
これらの結果から,デコード情報の品質と計算効率を向上させるCMDIの有効性が示され,グラフベースのクラスタリング解析において有用なツールとして位置づけられた。
論文 参考訳(メタデータ) (2024-03-18T05:18:19Z) - Redundancy-Free Self-Supervised Relational Learning for Graph Clustering [13.176413653235311]
冗長フリーグラフクラスタリング(R$2$FGC)という,自己教師付き深層グラフクラスタリング手法を提案する。
オートエンコーダとグラフオートエンコーダに基づいて,グローバルビューとローカルビューの両方から属性レベルと構造レベルの関係情報を抽出する。
この実験は,R$2$FGCが最先端のベースラインよりも優れていることを示すために,広く使用されているベンチマークデータセット上で実施されている。
論文 参考訳(メタデータ) (2023-09-09T06:18:50Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Simple Contrastive Graph Clustering [41.396185271303956]
既存の手法を改善するための単純なコントラストグラフクラスタリング(SCGC)アルゴリズムを提案する。
我々のアルゴリズムは、最近のコントラストの高いディープクラスタリング競合よりも、平均して7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-11T06:45:19Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [86.03382625531951]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Learning to Cluster Faces via Confidence and Connectivity Estimation [136.5291151775236]
重複する部分グラフを多数必要とせず,完全に学習可能なクラスタリングフレームワークを提案する。
提案手法はクラスタリングの精度を大幅に向上させ,その上で訓練した認識モデルの性能を向上させるが,既存の教師付き手法に比べて桁違いに効率的である。
論文 参考訳(メタデータ) (2020-04-01T13:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。