論文の概要: Can Generative Models Improve Self-Supervised Representation Learning?
- arxiv url: http://arxiv.org/abs/2403.05966v1
- Date: Sat, 9 Mar 2024 17:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:30:43.784703
- Title: Can Generative Models Improve Self-Supervised Representation Learning?
- Title(参考訳): 生成モデルは自己教師付き表現学習を改善するか?
- Authors: Arash Afkanpour, Vahid Reza Khazaie, Sana Ayromlou, Fereshteh Forghani
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。
本稿では、生成モデルを利用して意味的に一貫性のある画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8739101659113157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement in self-supervised learning (SSL) has highlighted its
potential to leverage unlabeled data for learning powerful visual
representations. However, existing SSL approaches, particularly those employing
different views of the same image, often rely on a limited set of predefined
data augmentations. This constrains the diversity and quality of
transformations, which leads to sub-optimal representations. In this paper, we
introduce a novel framework that enriches the SSL paradigm by utilizing
generative models to produce semantically consistent image augmentations. By
directly conditioning generative models on a source image representation, our
method enables the generation of diverse augmentations while maintaining the
semantics of the source image, thus offering a richer set of data for
self-supervised learning. Our experimental results demonstrate that our
framework significantly enhances the quality of learned visual representations.
This research demonstrates that incorporating generative models into the SSL
workflow opens new avenues for exploring the potential of unlabeled visual
data. This development paves the way for more robust and versatile
representation learning techniques.
- Abstract(参考訳): 自己教師付き学習(SSL)の急速な進歩は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。
しかし、既存のSSLアプローチ、特に同じイメージの異なるビューを使用するものは、しばしば、事前定義されたデータ拡張の限られたセットに依存する。
これは変換の多様性と品質を制約し、それが準最適表現につながる。
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
ソース画像表現に生成モデルを直接条件付けすることにより、ソース画像のセマンティクスを維持しながら多様な拡張生成を生成できるため、自己教師付き学習のためのよりリッチなデータセットを提供する。
実験の結果,本フレームワークは学習した視覚表現の質を著しく向上させることがわかった。
この研究は、生成モデルをSSLワークフローに組み込むことで、未ラベルの視覚データの可能性を探究するための新たな道を開くことを実証している。
この開発は、より堅牢で汎用的な表現学習技術の道を開く。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Virtual embeddings and self-consistency for self-supervised learning [43.086696088061416]
TriMixは、線形データを通じて仮想埋め込みを生成する自己教師型学習の新しい概念である。
我々は,TriMixを2.71%,0.41%改善した8つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-06-13T10:20:28Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。