論文の概要: Can Generative Models Improve Self-Supervised Representation Learning?
- arxiv url: http://arxiv.org/abs/2403.05966v1
- Date: Sat, 9 Mar 2024 17:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:30:43.784703
- Title: Can Generative Models Improve Self-Supervised Representation Learning?
- Title(参考訳): 生成モデルは自己教師付き表現学習を改善するか?
- Authors: Arash Afkanpour, Vahid Reza Khazaie, Sana Ayromlou, Fereshteh Forghani
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。
本稿では、生成モデルを利用して意味的に一貫性のある画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8739101659113157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement in self-supervised learning (SSL) has highlighted its
potential to leverage unlabeled data for learning powerful visual
representations. However, existing SSL approaches, particularly those employing
different views of the same image, often rely on a limited set of predefined
data augmentations. This constrains the diversity and quality of
transformations, which leads to sub-optimal representations. In this paper, we
introduce a novel framework that enriches the SSL paradigm by utilizing
generative models to produce semantically consistent image augmentations. By
directly conditioning generative models on a source image representation, our
method enables the generation of diverse augmentations while maintaining the
semantics of the source image, thus offering a richer set of data for
self-supervised learning. Our experimental results demonstrate that our
framework significantly enhances the quality of learned visual representations.
This research demonstrates that incorporating generative models into the SSL
workflow opens new avenues for exploring the potential of unlabeled visual
data. This development paves the way for more robust and versatile
representation learning techniques.
- Abstract(参考訳): 自己教師付き学習(SSL)の急速な進歩は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。
しかし、既存のSSLアプローチ、特に同じイメージの異なるビューを使用するものは、しばしば、事前定義されたデータ拡張の限られたセットに依存する。
これは変換の多様性と品質を制約し、それが準最適表現につながる。
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
ソース画像表現に生成モデルを直接条件付けすることにより、ソース画像のセマンティクスを維持しながら多様な拡張生成を生成できるため、自己教師付き学習のためのよりリッチなデータセットを提供する。
実験の結果,本フレームワークは学習した視覚表現の質を著しく向上させることがわかった。
この研究は、生成モデルをSSLワークフローに組み込むことで、未ラベルの視覚データの可能性を探究するための新たな道を開くことを実証している。
この開発は、より堅牢で汎用的な表現学習技術の道を開く。
関連論文リスト
- Learned representation-guided diffusion models for large-image
generation [60.698616089211505]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - CLAP: Isolating Content from Style through Contrastive Learning with
Augmented Prompts [12.838906765729748]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。