論文の概要: On Linear Separation Capacity of Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2310.19041v2
- Date: Sun, 5 May 2024 14:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:35:15.990722
- Title: On Linear Separation Capacity of Self-Supervised Representation Learning
- Title(参考訳): 自己監督型表現学習における線形分離能力について
- Authors: Shulei Wang,
- Abstract要約: 自己教師型学習の最近の進歩は、ラベルのないデータからデータ表現を学習する際のデータ拡張の有効性を強調している。
本稿では,データ拡張により非線形データ構造を線形分離可能な表現に展開する機構について検討する。
- 参考スコア(独自算出の注目度): 0.5827521884806071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning have highlighted the efficacy of data augmentation in learning data representation from unlabeled data. Training a linear model atop these enhanced representations can yield an adept classifier. Despite the remarkable empirical performance, the underlying mechanisms that enable data augmentation to unravel nonlinear data structures into linearly separable representations remain elusive. This paper seeks to bridge this gap by investigating under what conditions learned representations can linearly separate manifolds when data is drawn from a multi-manifold model. Our investigation reveals that data augmentation offers additional information beyond observed data and can thus improve the information-theoretic optimal rate of linear separation capacity. In particular, we show that self-supervised learning can linearly separate manifolds with a smaller distance than unsupervised learning, underscoring the additional benefits of data augmentation. Our theoretical analysis further underscores that the performance of downstream linear classifiers primarily hinges on the linear separability of data representations rather than the size of the labeled data set, reaffirming the viability of constructing efficient classifiers with limited labeled data amid an expansive unlabeled data set.
- Abstract(参考訳): 自己教師型学習の最近の進歩は、ラベルのないデータからデータ表現を学習する際のデータ拡張の有効性を強調している。
これらの拡張表現の上に線形モデルをトレーニングすると、アデプト分類子が得られる。
顕著な経験的性能にもかかわらず、非線形データ構造を線形に分離可能な表現に変換するためのデータ拡張を可能にするメカニズムは、まだ解明されていない。
本稿では,マルチ多様体モデルからデータを引き出す際に,学習した表現が多様体を線形に分離できる条件について検討することで,このギャップを埋めることを模索する。
本研究は,データ拡張が観測データ以上の情報を提供し,線形分離能力の情報理論的最適率を向上させることを明らかにする。
特に,教師なし学習よりも小さい距離の多様体を線形に分離できることを示す。
我々の理論的分析は、下流線形分類器の性能は、ラベル付きデータセットのサイズではなく、データ表現の線形分離性に基づいており、拡張性のないラベル付きデータセットの中で、限られたラベル付きデータで効率的な分類器を構築することが可能であることを再確認している。
関連論文リスト
- Understanding How Nonlinear Layers Create Linearly Separable Features for Low-Dimensional Data [7.0164889385584415]
ディープニューラルネットワークは、様々な分類タスクで顕著な成功を収めている。
最近の実証研究により、ディープネットワークはクラス間で線形に分離可能な特徴を学習することが示されている。
この研究は、経験的観測と非線形ネットワークの分離能力の理論的理解のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-01-04T19:43:21Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Augmentation Invariant Manifold Learning [0.5827521884806071]
本稿では,拡張不変多様体学習と呼ばれる新しい表現学習手法を提案する。
既存の自己教師付き手法と比較して、新しい手法は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
提案手法におけるデータ拡張の役割を理論的研究により明らかにし, 下流解析において, 拡張データから得られたデータ表現が$k$-nearestの隣人を改善できる理由と方法を明らかにした。
論文 参考訳(メタデータ) (2022-11-01T13:42:44Z) - Functional Nonlinear Learning [0.0]
低次元特徴空間における多変量関数データを表現する機能非線形学習法(FunNoL)を提案する。
本研究では,FunNoLがデータ間隔によらず,良好な曲線分類と再構成を提供することを示す。
論文 参考訳(メタデータ) (2022-06-22T23:47:45Z) - Beyond Separability: Analyzing the Linear Transferability of Contrastive
Representations to Related Subpopulations [50.33975968859988]
コントラスト学習(Contrastive Learning)は、ラベルのないデータを用いて、下流の分類タスクに線形に分離可能な表現を生成する、非常に効果的な手法である。
最近の研究では、対照的表現はデータが単一のドメインから来るときに有用であるだけでなく、ドメイン間での転送にも有効であることが示されている。
論文 参考訳(メタデータ) (2022-04-06T09:10:23Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Linear predictor on linearly-generated data with missing values: non
consistency and solutions [0.0]
本研究では,予測対象が全観測データの線形関数である場合について検討する。
不足する値が存在する場合、最適予測器は線形でない可能性があることを示す。
論文 参考訳(メタデータ) (2020-02-03T11:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。