論文の概要: Augmentation Invariant Manifold Learning
- arxiv url: http://arxiv.org/abs/2211.00460v1
- Date: Tue, 1 Nov 2022 13:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:53:09.668539
- Title: Augmentation Invariant Manifold Learning
- Title(参考訳): 拡張不変マニフォールド学習
- Authors: Shulei Wang
- Abstract要約: 低次元積多様体上の統計フレームワークを開発し、ラベルのない拡張データが有用なデータ表現に繋がる理由を解明する。
本研究では,拡張不変多様体学習という表現学習手法を提案する。
既存の手法と比較して、新しいデータ表現は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
- 参考スコア(独自算出の注目度): 1.4141453107129398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a widely used technique and an essential ingredient in
the recent advance in self-supervised representation learning. By preserving
the similarity between augmented data, the resulting data representation can
improve various downstream analyses and achieve state-of-art performance in
many applications. To demystify the role of data augmentation, we develop a
statistical framework on a low-dimension product manifold to theoretically
understand why the unlabeled augmented data can lead to useful data
representation. Under this framework, we propose a new representation learning
method called augmentation invariant manifold learning and develop the
corresponding loss function, which can work with a deep neural network to learn
data representations. Compared with existing methods, the new data
representation simultaneously exploits the manifold's geometric structure and
invariant property of augmented data. Our theoretical investigation precisely
characterizes how the data representation learned from augmented data can
improve the $k$-nearest neighbor classifier in the downstream analysis, showing
that a more complex data augmentation leads to more improvement in downstream
analysis. Finally, numerical experiments on simulated and real datasets are
presented to support the theoretical results in this paper.
- Abstract(参考訳): データ拡張は、近年の自己教師型表現学習の進歩において、広く使われている技法であり、重要な要素である。
拡張データ間の類似性を保存することで、結果のデータ表現は様々な下流分析を改善し、多くのアプリケーションで最先端のパフォーマンスを達成することができる。
データ拡張の役割を解明するため,低次元積多様体上の統計フレームワークを開発し,ラベルのない拡張データが有用なデータ表現に繋がる理由を理論的に理解する。
本研究では,拡張不変多様体学習と呼ばれる新しい表現学習法を提案し,それに対応する損失関数を開発し,ディープニューラルネットワークと協調してデータ表現を学習する。
既存の手法と比較して、新しいデータ表現は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
我々の理論的調査は,拡張データから得られたデータ表現が下流解析における$k$-nearest近傍分類器をどのように改善するかを正確に特徴付け,より複雑なデータ拡張によって下流解析がより改善されることを示す。
最後に,本論文の理論的結果を支えるために,シミュレーションおよび実データに関する数値実験を行った。
関連論文リスト
- Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Nonparametric Automatic Differentiation Variational Inference with
Spline Approximation [7.5620760132717795]
複雑な構造を持つ分布に対するフレキシブルな後続近似を可能にする非パラメトリック近似法を開発した。
広く使われている非パラメトリック推論手法と比較して,提案手法は実装が容易であり,様々なデータ構造に適応する。
実験では, 複雑な後続分布の近似における提案手法の有効性を実証し, 不完全データを用いた生成モデルの性能向上を図った。
論文 参考訳(メタデータ) (2024-03-10T20:22:06Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Generalised Latent Assimilation in Heterogeneous Reduced Spaces with
Machine Learning Surrogate Models [10.410970649045943]
我々は,低次サロゲートモデルと新しいデータ同化手法を組み合わせたシステムを開発した。
一般化された潜在同化は、低次モデリングによって提供される効率とデータ同化の精度の両方の恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-04-07T15:13:12Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。