論文の概要: Do Generated Data Always Help Contrastive Learning?
- arxiv url: http://arxiv.org/abs/2403.12448v1
- Date: Tue, 19 Mar 2024 05:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:12:20.589252
- Title: Do Generated Data Always Help Contrastive Learning?
- Title(参考訳): 生成データは常にコントラスト学習に役立つか?
- Authors: Yifei Wang, Jizhe Zhang, Yisen Wang,
- Abstract要約: コントラスト学習(CL)は、教師なし視覚表現学習において最も成功したパラダイムの1つである。
生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的な画像を生成する能力はよく認識されている。
しかし、生成したデータ(DDPMのような優れた拡散モデルからでも)は、コントラスト学習に害を与えることもある。
- 参考スコア(独自算出の注目度): 32.58214897368031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Learning (CL) has emerged as one of the most successful paradigms for unsupervised visual representation learning, yet it often depends on intensive manual data augmentations. With the rise of generative models, especially diffusion models, the ability to generate realistic images close to the real data distribution has been well recognized. These generated high-equality images have been successfully applied to enhance contrastive representation learning, a technique termed ``data inflation''. However, we find that the generated data (even from a good diffusion model like DDPM) may sometimes even harm contrastive learning. We investigate the causes behind this failure from the perspective of both data inflation and data augmentation. For the first time, we reveal the complementary roles that stronger data inflation should be accompanied by weaker augmentations, and vice versa. We also provide rigorous theoretical explanations for these phenomena via deriving its generalization bounds under data inflation. Drawing from these insights, we propose Adaptive Inflation (AdaInf), a purely data-centric strategy without introducing any extra computation cost. On benchmark datasets, AdaInf can bring significant improvements for various contrastive learning methods. Notably, without using external data, AdaInf obtains 94.70% linear accuracy on CIFAR-10 with SimCLR, setting a new record that surpasses many sophisticated methods. Code is available at https://github.com/PKU-ML/adainf.
- Abstract(参考訳): 対照的学習(CL)は、教師なしの視覚表現学習において最も成功したパラダイムの1つだが、しばしば手作業によるデータ拡張に依存している。
生成モデル、特に拡散モデルの増加に伴い、実際のデータ分布に近い現実的な画像を生成する能力はよく認識されている。
これらの高画質画像は「データインフレーション」と呼ばれる手法であるコントラスト表現学習の強化に成功している。
しかし、生成したデータ(DDPMのような優れた拡散モデルからでも)は、コントラスト学習に害を与えることもある。
データインフレーションとデータ拡張の観点から,この障害の原因を考察する。
初めて、データインフレーションがより強まるためには、より弱い増資が伴うべき相補的な役割を明らかにします。
また、データインフレーションの下での一般化境界を導出することにより、これらの現象の厳密な理論的説明を提供する。
これらの知見から,データ中心型戦略であるAdaptive Inflation(AdaInf)を提案する。
ベンチマークデータセットでは、AdaInfはさまざまな対照的な学習方法に大幅な改善をもたらすことができる。
特に、外部データを使わずに、AdaInfはCIFAR-10の94.70%の線形精度をSimCLRで取得し、多くの洗練された手法を超える新しい記録を樹立した。
コードはhttps://github.com/PKU-ML/adainf.comで入手できる。
関連論文リスト
- Empowering Graph Invariance Learning with Deep Spurious Infomax [27.53568333416706]
本稿では,頑健かつ一般的な帰納バイアスを誘発する新しいグラフ不変性学習パラダイムを提案する。
EQuADは、合成データセットにおける様々なバイアスの度合いにまたがって安定したパフォーマンスを示し、実世界のデータセットに最大311.76%の価格で挑戦する。
論文 参考訳(メタデータ) (2024-07-13T14:18:47Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation [48.25619775814776]
本稿では,拡散モードに基づく正データ生成を用いた新しい教師なしコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件拡散モデルから構成されており、条件拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成する。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-10T13:28:46Z) - Toward Understanding Generative Data Augmentation [16.204251285425478]
生成データの増大は、発散項の順序が$o(maxleft( log(m)beta_m, 1 / sqrtm)right)$である場合、より高速に学習できることを示す。
いずれの場合も、生成データの増大は学習速度の速さを損なうものではないが、列車セットが小さい場合、一定のレベルで学習保証を改善することができることを証明している。
論文 参考訳(メタデータ) (2023-05-27T13:46:08Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。