論文の概要: On Linear Separation Capacity of Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2310.19041v1
- Date: Sun, 29 Oct 2023 15:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:51:31.257674
- Title: On Linear Separation Capacity of Self-Supervised Representation Learning
- Title(参考訳): 自己教師付き表現学習の線形分離能力について
- Authors: Shulei Wang
- Abstract要約: 自己教師型学習の最近の進歩は、ラベルのないデータからデータ表現を学習する際のデータ拡張の有効性を強調している。
本稿では,データ拡張により非線形データ構造を線形分離可能な表現に展開する機構について検討する。
- 参考スコア(独自算出の注目度): 0.5827521884806071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning have highlighted the efficacy of
data augmentation in learning data representation from unlabeled data. Training
a linear model atop these enhanced representations can yield an adept
classifier. Despite the remarkable empirical performance, the underlying
mechanisms that enable data augmentation to unravel nonlinear data structures
into linearly separable representations remain elusive. This paper seeks to
bridge this gap by investigating under what conditions learned representations
can linearly separate manifolds when data is drawn from a multi-manifold model.
Our investigation reveals that data augmentation offers additional information
beyond observed data and can thus improve the information-theoretic optimal
rate of linear separation capacity. In particular, we show that self-supervised
learning can linearly separate manifolds with a smaller distance than
unsupervised learning, underscoring the additional benefits of data
augmentation. Our theoretical analysis further underscores that the performance
of downstream linear classifiers primarily hinges on the linear separability of
data representations rather than the size of the labeled data set, reaffirming
the viability of constructing efficient classifiers with limited labeled data
amid an expansive unlabeled data set.
- Abstract(参考訳): 近年の自己教師あり学習の進歩は、ラベルなしデータからの学習データ表現におけるデータ拡張の有効性を強調している。
これらの拡張表現の上に線形モデルをトレーニングすると、アデプト分類子が得られる。
顕著な経験的性能にもかかわらず、非線形データ構造を線形に分離可能な表現に拡張するデータ拡張を可能にするメカニズムは、いまだに解明されていない。
本稿では,マルチ多様体モデルからデータを引き出す際に,学習した表現が多様体を線形に分離できる条件について検討することで,このギャップを埋めることを模索する。
本研究は,データ拡張が観測データ以上の情報を提供し,線形分離能力の情報理論的最適率を向上させることを明らかにする。
特に,自己教師付き学習は教師なし学習よりも距離が小さい多様体を線形に分離できることを示す。
この理論解析により,下流の線形分類器の性能はラベル付きデータセットのサイズよりもむしろデータ表現の線形分離性に重きを置き,ラベル付きデータセットの広がりの中でラベル付きデータで効率的な分類器を構築することの可否を再確認する。
関連論文リスト
- Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Augmentation Invariant Manifold Learning [0.5827521884806071]
本稿では,拡張不変多様体学習と呼ばれる新しい表現学習手法を提案する。
既存の自己教師付き手法と比較して、新しい手法は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
提案手法におけるデータ拡張の役割を理論的研究により明らかにし, 下流解析において, 拡張データから得られたデータ表現が$k$-nearestの隣人を改善できる理由と方法を明らかにした。
論文 参考訳(メタデータ) (2022-11-01T13:42:44Z) - Functional Nonlinear Learning [0.0]
低次元特徴空間における多変量関数データを表現する機能非線形学習法(FunNoL)を提案する。
本研究では,FunNoLがデータ間隔によらず,良好な曲線分類と再構成を提供することを示す。
論文 参考訳(メタデータ) (2022-06-22T23:47:45Z) - Beyond Separability: Analyzing the Linear Transferability of Contrastive
Representations to Related Subpopulations [50.33975968859988]
コントラスト学習(Contrastive Learning)は、ラベルのないデータを用いて、下流の分類タスクに線形に分離可能な表現を生成する、非常に効果的な手法である。
最近の研究では、対照的表現はデータが単一のドメインから来るときに有用であるだけでなく、ドメイン間での転送にも有効であることが示されている。
論文 参考訳(メタデータ) (2022-04-06T09:10:23Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Learning Self-Expression Metrics for Scalable and Inductive Subspace
Clustering [5.587290026368626]
サブスペースクラスタリングは、高次元データをクラスタリングするための最先端のアプローチとして確立されている。
本研究では,シアムニューラルネットワークアーキテクチャを用いて,サブスペース親和性関数を学習するための新しい距離学習手法を提案する。
我々のモデルは、パラメータの一定数とメモリフットプリントの恩恵を受けており、かなり大きなデータセットにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-27T15:40:12Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Linear predictor on linearly-generated data with missing values: non
consistency and solutions [0.0]
本研究では,予測対象が全観測データの線形関数である場合について検討する。
不足する値が存在する場合、最適予測器は線形でない可能性があることを示す。
論文 参考訳(メタデータ) (2020-02-03T11:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。