論文の概要: An Empirical Study on Clustering Pretrained Embeddings: Is Deep Strictly
Better?
- arxiv url: http://arxiv.org/abs/2211.05183v1
- Date: Wed, 9 Nov 2022 20:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 14:38:30.859718
- Title: An Empirical Study on Clustering Pretrained Embeddings: Is Deep Strictly
Better?
- Title(参考訳): プレトレーニングエンベディングのクラスタリングに関する実証的研究:深部は厳密に優れているか?
- Authors: Tyler R. Scott, Ting Liu, Michael C. Mozer, Andrew C. Gallagher
- Abstract要約: 教師なし、浅い、浅いベースのメソッドは、教師付き、深い、インダクティブなメソッドよりも優れています。
ディープメソッドは、不確実性のある埋め込みには驚くほど脆弱です。
ベンチマークは、フェイスドメインを超えて、教師付きクラスタリングメソッドの範囲を広げます。
- 参考スコア(独自算出の注目度): 20.07702108724358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in clustering face embeddings has found that unsupervised,
shallow, heuristic-based methods -- including $k$-means and hierarchical
agglomerative clustering -- underperform supervised, deep, inductive methods.
While the reported improvements are indeed impressive, experiments are mostly
limited to face datasets, where the clustered embeddings are highly
discriminative or well-separated by class (Recall@1 above 90% and often nearing
ceiling), and the experimental methodology seemingly favors the deep methods.
We conduct a large-scale empirical study of 17 clustering methods across three
datasets and obtain several robust findings. Notably, deep methods are
surprisingly fragile for embeddings with more uncertainty, where they match or
even perform worse than shallow, heuristic-based methods. When embeddings are
highly discriminative, deep methods do outperform the baselines, consistent
with past results, but the margin between methods is much smaller than
previously reported. We believe our benchmarks broaden the scope of supervised
clustering methods beyond the face domain and can serve as a foundation on
which these methods could be improved. To enable reproducibility, we include
all necessary details in the appendices, and plan to release the code.
- Abstract(参考訳): クラスタリング顔の埋め込みに関する最近の研究によると、$k$-meansや階層的集合的クラスタリングなど、教師なし、浅い、ヒューリスティックな手法が、教師なし、深いインダクティブな手法で実行されている。
報告された改善は実に印象的だが、実験は主に顔データセットに限られており、クラスタ化された埋め込みはクラスによって高度に差別化されている(Recall@1は90%以上、しばしば天井に近い)。
3つのデータセットにまたがる17のクラスタリング手法に関する大規模実証研究を行い,いくつかのロバストな知見を得た。
特に、深層メソッドは、浅くヒューリスティックなメソッドとマッチする、あるいはパフォーマンスが悪い不確実性のある埋め込みに対して、驚くほど脆弱である。
埋め込みが高度に識別される場合、ディープメソッドは過去の結果と一致してベースラインよりも優れているが、メソッド間のマージンは以前報告されたよりもはるかに小さい。
当社のベンチマークは、顔領域を超えて監視クラスタリング手法の範囲を広げ、これらの手法を改善できる基盤として役立てることができると信じています。
再現性を実現するため、付録に必要な詳細をすべて含み、コードのリリースを計画している。
関連論文リスト
- Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Experimental Analysis of Large-scale Learnable Vector Storage
Compression [42.52474894105165]
学習可能な埋め込みベクトルは、機械学習において最も重要な応用の1つである。
推薦タスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルのメモリ消費を増大させる。
近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
論文 参考訳(メタデータ) (2023-11-27T07:11:47Z) - Stable Cluster Discrimination for Deep Clustering [7.175082696240088]
ディープクラスタリングは、インスタンスの表現(つまり、表現学習)を最適化し、固有のデータ分散を探索することができる。
結合された目的は、すべてのインスタンスが一様機能に崩壊する、自明な解決策を意味する。
本研究では,1段階クラスタリングにおいて,教師あり学習における一般的な識別タスクが不安定であることを示す。
新規な安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しいハードネス対応クラスタリング基準を得ることができる。
論文 参考訳(メタデータ) (2023-11-24T06:43:26Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Enriched Robust Multi-View Kernel Subspace Clustering [5.770309971945476]
サブスペースクラスタリングは、下位の低次元のサブスペースを見つけ、データポイントを正しくクラスタ化する。
既存の方法の多くは2つの重大な問題に悩まされている。
本稿では,新しいマルチビューサブスペースクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T03:06:24Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means
Clustering and Minimum Interlayer discrepancy [14.339674126923903]
本稿では,マルチ層ファジィc-means(MlFCM)と最小層間離散化機構(MIDMD)を用いたディープインスタンスエンベロープネットワークに基づく不均衡学習アルゴリズムを提案する。
このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。
論文 参考訳(メタデータ) (2021-11-02T04:59:57Z) - A Survey on Deep Semi-supervised Learning [51.26862262550445]
まず,既存の手法を分類した深層半指導学習の分類法を提案する。
次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。
論文 参考訳(メタデータ) (2021-02-28T16:22:58Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。