論文の概要: Revisiting data augmentation for subspace clustering
- arxiv url: http://arxiv.org/abs/2207.09728v1
- Date: Wed, 20 Jul 2022 08:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:29:36.233669
- Title: Revisiting data augmentation for subspace clustering
- Title(参考訳): サブスペースクラスタリングのためのデータ拡張の再検討
- Authors: Maryam Abdolali, Nicolas Gillis
- Abstract要約: サブスペースクラスタリング(Subspace clustering)は、複数の低次元のサブスペースを囲むデータサンプルの集合をクラスタリングする古典的な問題である。
我々は,各部分空間内のデータ分布が自己表現モデルの成功に重要な役割を果たしていると主張している。
教師なし設定と半教師なし設定の2つのサブスペースクラスタリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.737226432466496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subspace clustering is the classical problem of clustering a collection of
data samples that approximately lie around several low-dimensional subspaces.
The current state-of-the-art approaches for this problem are based on the
self-expressive model which represents the samples as linear combination of
other samples. However, these approaches require sufficiently well-spread
samples for accurate representation which might not be necessarily accessible
in many applications. In this paper, we shed light on this commonly neglected
issue and argue that data distribution within each subspace plays a critical
role in the success of self-expressive models. Our proposed solution to tackle
this issue is motivated by the central role of data augmentation in the
generalization power of deep neural networks. We propose two subspace
clustering frameworks for both unsupervised and semi-supervised settings that
use augmented samples as an enlarged dictionary to improve the quality of the
self-expressive representation. We present an automatic augmentation strategy
using a few labeled samples for the semi-supervised problem relying on the fact
that the data samples lie in the union of multiple linear subspaces.
Experimental results confirm the effectiveness of data augmentation, as it
significantly improves the performance of general self-expressive models.
- Abstract(参考訳): サブスペースクラスタリング(Subspace clustering)は、複数の低次元のサブスペースの周辺に位置するデータサンプルの集合をクラスタリングする古典的な問題である。
この問題に対する現在の最先端のアプローチは、サンプルを他のサンプルの線形結合として表現する自己表現モデルに基づいている。
しかし、これらのアプローチは、多くのアプリケーションで必ずしもアクセスできない正確な表現のために十分な精度のサンプルを必要とする。
本稿では,この問題に光を当て,各部分空間内のデータ分布が自己表現モデルの成功に重要な役割を果たしていることを論じる。
この問題に取り組むための提案手法は,深層ニューラルネットワークの一般化パワーにおけるデータ拡張の中心的な役割を動機付けるものである。
本研究では,拡張サンプルを拡張辞書として使用する非教師なしおよび半教師なし設定の2つのサブスペースクラスタリングフレームワークを提案し,自己表現表現の品質を向上させる。
本稿では,データサンプルが複数の線形部分空間の結合にあるという事実に基づく,半教師付き問題に対するラベル付きサンプルを用いた自動拡張戦略を提案する。
実験結果から,一般自己表現モデルの性能を著しく向上させるため,データ拡張の有効性が確認された。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Unsupervised Manifold Linearizing and Clustering [19.879641608165887]
本稿では、データ表現と2重クラスタメンバシップの両方に関して、最大符号化削減度を最適化することを提案する。
CIFAR-10, -20, -100, TinyImageNet-200データセットに対する実験により,提案手法は最先端のディープクラスタリング手法よりもはるかに正確でスケーラブルであることが示された。
論文 参考訳(メタデータ) (2023-01-04T20:08:23Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Stochastic Sparse Subspace Clustering [20.30051592270384]
最先端のサブスペースクラスタリング手法は、各データポイントを他のデータポイントの線形結合として表現する自己表現モデルに基づいている。
本稿では,データポイントのランダムなドロップアウトに基づくオーバーセグメンテーションの問題に対処するために,ドロップアウトを導入する。
これにより、スケーラブルで柔軟なスパースサブスペースクラスタリングアプローチ(Sparse Subspace Clustering)が実現される。
論文 参考訳(メタデータ) (2020-05-04T13:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。