論文の概要: Data Augmentations Go Beyond Encoding Invariances: A Theoretical Study on Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2411.01767v2
- Date: Sun, 15 Dec 2024 23:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:49:43.544340
- Title: Data Augmentations Go Beyond Encoding Invariances: A Theoretical Study on Self-Supervised Learning
- Title(参考訳): 不変性を符号化する以上のデータ拡張:自己監督型学習の理論的研究
- Authors: Shlomo Libo Feigin, Maximilian Fleissner, Debarghya Ghoshdastidar,
- Abstract要約: 拡張は元のデータと似ていても、多種多様である必要はなく、どちらもあり得ないことを示す。
自己指導型学習において、このような拡張を再構築し、強化選択に関する洞察を与えるアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 6.178817969919849
- License:
- Abstract: Understanding the role of data augmentations is critical for applying Self-Supervised Learning (SSL) methods in new domains. Data augmentations are commonly understood as encoding invariances into the learned representations. This interpretation suggests that SSL would require diverse augmentations that resemble the original data. However, in practice, augmentations do not need to be similar to the original data nor be diverse, and can be neither at the same time. We provide a theoretical insight into this phenomenon. We show that for different SSL losses, any non-redundant representation can be learned with a single suitable augmentation. We provide an algorithm to reconstruct such augmentations and give insights into augmentation choices in SSL.
- Abstract(参考訳): データ拡張の役割を理解することは、新しいドメインに自己監視学習(SSL)メソッドを適用する上で重要である。
データ拡張は一般に、学習した表現に不変性を符号化するものとして理解されている。
この解釈は、SSLが元のデータに似た多様な拡張を必要とすることを示唆している。
しかし、実際には、拡張は元のデータと似ている必要はなく、多種多様で、同時にはできない。
この現象に関する理論的知見を提供する。
SSLの損失が異なる場合、任意の非冗長表現は、ひとつの適切な拡張で学習可能であることを示す。
このような拡張を再構築し、SSLにおける拡張選択に関する洞察を与えるアルゴリズムを提供する。
関連論文リスト
- You Don't Need Domain-Specific Data Augmentations When Scaling Self-Supervised Learning [8.384940156285847]
JEA(Joint-Embedding Architectures)とSSL(Self-Supervised Learning)は、優れたパフォーマンスを実現している。
生成的再構成モデルではマスキング以外のデータ拡張を使わずに高い性能を示した。
トレーニングデータの大きさが十分大きい場合, 画像の強い表現はJEAで得られ, 刈り取りだけはサイズを変えずに得られることを示す。
論文 参考訳(メタデータ) (2024-06-13T16:30:03Z) - Revisiting Data Augmentation in Deep Reinforcement Learning [3.660182910533372]
画像に基づく深部強化学習(DRL)において、様々なデータ拡張技術が提案されている。
既存の手法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。
この分析は、データ拡張をより原則的に活用する方法を推奨する。
論文 参考訳(メタデータ) (2024-02-19T14:42:10Z) - Harnessing small projectors and multiple views for efficient vision pretraining [11.325655646957186]
我々は、競争力と効率的な視覚表現学習のための実用的なレコメンデーションを設計するために、最近の分析結果に基づいて構築する。
この理想化された損失を、より効率的に計算できる機能的に等価な損失にどのように再構成できるかを示す。
我々は,CIFAR,STL,Imagenetのデータセットについて実験により検証した。
論文 参考訳(メタデータ) (2023-12-17T14:14:31Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Incorporating Causal Graphical Prior Knowledge into Predictive Modeling
via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。
本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。
本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文 参考訳(メタデータ) (2021-02-27T06:13:59Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。