論文の概要: Can Generative Models Improve Self-Supervised Representation Learning?
- arxiv url: http://arxiv.org/abs/2403.05966v1
- Date: Sat, 9 Mar 2024 17:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:30:43.784703
- Title: Can Generative Models Improve Self-Supervised Representation Learning?
- Title(参考訳): 生成モデルは自己教師付き表現学習を改善するか?
- Authors: Arash Afkanpour, Vahid Reza Khazaie, Sana Ayromlou, Fereshteh Forghani
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。
本稿では、生成モデルを利用して意味的に一貫性のある画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8739101659113157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement in self-supervised learning (SSL) has highlighted its
potential to leverage unlabeled data for learning powerful visual
representations. However, existing SSL approaches, particularly those employing
different views of the same image, often rely on a limited set of predefined
data augmentations. This constrains the diversity and quality of
transformations, which leads to sub-optimal representations. In this paper, we
introduce a novel framework that enriches the SSL paradigm by utilizing
generative models to produce semantically consistent image augmentations. By
directly conditioning generative models on a source image representation, our
method enables the generation of diverse augmentations while maintaining the
semantics of the source image, thus offering a richer set of data for
self-supervised learning. Our experimental results demonstrate that our
framework significantly enhances the quality of learned visual representations.
This research demonstrates that incorporating generative models into the SSL
workflow opens new avenues for exploring the potential of unlabeled visual
data. This development paves the way for more robust and versatile
representation learning techniques.
- Abstract(参考訳): 自己教師付き学習(SSL)の急速な進歩は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。
しかし、既存のSSLアプローチ、特に同じイメージの異なるビューを使用するものは、しばしば、事前定義されたデータ拡張の限られたセットに依存する。
これは変換の多様性と品質を制約し、それが準最適表現につながる。
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
ソース画像表現に生成モデルを直接条件付けすることにより、ソース画像のセマンティクスを維持しながら多様な拡張生成を生成できるため、自己教師付き学習のためのよりリッチなデータセットを提供する。
実験の結果,本フレームワークは学習した視覚表現の質を著しく向上させることがわかった。
この研究は、生成モデルをSSLワークフローに組み込むことで、未ラベルの視覚データの可能性を探究するための新たな道を開くことを実証している。
この開発は、より堅牢で汎用的な表現学習技術の道を開く。
関連論文リスト
- Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models [6.501811946908292]
判別モデルは本質的に強力な生成能力を含むことを示す。
我々の手法であるDirect Ascent Synthesisは、これらの潜伏能力を明らかにする。
DASは複数の空間スケールで最適化を分解することで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-02-11T18:27:27Z) - Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。
これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文 参考訳(メタデータ) (2024-12-02T16:20:59Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [35.195284384050325]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。