論文の概要: Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2412.01672v1
- Date: Mon, 02 Dec 2024 16:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:57.867854
- Title: Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning
- Title(参考訳): Gen-SIS: ジェネレーティブな自己拡張は自己教師型学習を改善する
- Authors: Varun Belagali, Srikar Yellapragada, Alexandros Graikos, Saarthak Kapse, Zilinghan Li, Tarak Nath Nandi, Ravi K Madduri, Prateek Prasanna, Joel Saltz, Dimitris Samaras,
- Abstract要約: Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。
これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
- 参考スコア(独自算出の注目度): 52.170253590364545
- License:
- Abstract: Self-supervised learning (SSL) methods have emerged as strong visual representation learners by training an image encoder to maximize similarity between features of different views of the same image. To perform this view-invariance task, current SSL algorithms rely on hand-crafted augmentations such as random cropping and color jittering to create multiple views of an image. Recently, generative diffusion models have been shown to improve SSL by providing a wider range of data augmentations. However, these diffusion models require pre-training on large-scale image-text datasets, which might not be available for many specialized domains like histopathology. In this work, we introduce Gen-SIS, a diffusion-based augmentation technique trained exclusively on unlabeled image data, eliminating any reliance on external sources of supervision such as text captions. We first train an initial SSL encoder on a dataset using only hand-crafted augmentations. We then train a diffusion model conditioned on embeddings from that SSL encoder. Following training, given an embedding of the source image, this diffusion model can synthesize its diverse views. We show that these `self-augmentations', i.e. generative augmentations based on the vanilla SSL encoder embeddings, facilitate the training of a stronger SSL encoder. Furthermore, based on the ability to interpolate between images in the encoder latent space, we introduce the novel pretext task of disentangling the two source images of an interpolated synthetic image. We validate Gen-SIS's effectiveness by demonstrating performance improvements across various downstream tasks in both natural images, which are generally object-centric, as well as digital histopathology images, which are typically context-based.
- Abstract(参考訳): 自己教師付き学習(SSL)手法は、画像エンコーダを訓練して、同一画像の異なるビューの特徴の類似性を最大化することにより、強力な視覚表現学習者として登場した。
このビュー不変タスクを実行するために、現在のSSLアルゴリズムは、画像の複数のビューを生成するために、ランダムなトリミングやカラージッタリングのような手作りの強化に依存している。
近年、生成拡散モデルにより、より広範なデータ拡張を提供することでSSLを改善することが示されている。
しかし、これらの拡散モデルは、病理学のような多くの専門分野では利用できない大規模な画像テキストデータセットの事前学習を必要とする。
本稿では,テキストキャプションなどの外部の監督源に依存しない,ラベルのない画像データのみに特化して訓練された拡散に基づく拡張手法であるGen-SISを紹介する。
まず、手作業による拡張のみを使用して、データセット上で最初のSSLエンコーダをトレーニングする。
次に、SSLエンコーダからの埋め込みを条件とした拡散モデルをトレーニングします。
トレーニングの後、ソースイメージの埋め込みを前提として、この拡散モデルは、その多様なビューを合成することができる。
これらの「自己増強」、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強が、より強力なSSLエンコーダのトレーニングを促進することを示す。
さらに,エンコーダ潜在空間内の画像間を補間する機能に基づき,補間された合成画像の2つのソースイメージを非補間する新たなプリテキストタスクを導入する。
我々は、一般にオブジェクト中心の自然画像と、典型的にはコンテキストベースであるデジタル病理画像の両方において、様々な下流タスクのパフォーマンス改善を示すことにより、Gen-SISの有効性を検証する。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。