論文の概要: Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks
- arxiv url: http://arxiv.org/abs/2308.06739v1
- Date: Sun, 13 Aug 2023 10:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:33:35.183220
- Title: Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks
- Title(参考訳): 自由ATM:自由注意マスクを用いた拡散生成画像の教師なし学習
- Authors: David Junhao Zhang, Mutian Xu, Chuhui Xue, Wenqing Zhang, Xiaoguang
Han, Song Bai, Mike Zheng Shou
- Abstract要約: テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
- 参考スコア(独自算出の注目度): 64.67735676127208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid advancement of unsupervised learning in visual
representation, it requires training on large-scale datasets that demand costly
data collection, and pose additional challenges due to concerns regarding data
privacy. Recently, synthetic images generated by text-to-image diffusion
models, have shown great potential for benefiting image recognition. Although
promising, there has been inadequate exploration dedicated to unsupervised
learning on diffusion-generated images. To address this, we start by uncovering
that diffusion models' cross-attention layers inherently provide
annotation-free attention masks aligned with corresponding text inputs on
generated images. We then investigate the problems of three prevalent
unsupervised learning techniques ( i.e., contrastive learning, masked modeling,
and vision-language pretraining) and introduce customized solutions by fully
exploiting the aforementioned free attention masks. Our approach is validated
through extensive experiments that show consistent improvements in baseline
models across various downstream tasks, including image classification,
detection, segmentation, and image-text retrieval. By utilizing our method, it
is possible to close the performance gap between unsupervised pretraining on
synthetic data and real-world scenarios.
- Abstract(参考訳): 視覚的表現における教師なし学習の急速な進歩にもかかわらず、コストのかかるデータ収集を要求する大規模データセットのトレーニングと、データプライバシに関する懸念のために追加の課題を提起する必要がある。
近年,テキストから画像への拡散モデルによって生成された合成画像は,画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
そこで本研究では,拡散モデルのクロスアテンション層が,生成画像上の対応するテキスト入力に対応するアノテーションのないアテンションマスクを本質的に提供することを明らかにする。
次に,3つの教師なし学習手法(コントラスト学習,マスクモデリング,視覚言語事前学習)の問題点を調査し,前述のフリーアテンションマスクを十分に活用したカスタマイズソリューションを導入する。
提案手法は,画像分類,検出,セグメンテーション,画像テキスト検索など,下流タスクにおけるベースラインモデルの一貫した改善を示す広範な実験によって検証される。
本手法を用いることで,教師なし事前学習と実世界のシナリオ間の性能ギャップを埋めることが可能となる。
関連論文リスト
- Diffusion Facial Forgery Detection [56.69763252655695]
本稿では,顔に焦点をあてた拡散生成画像を対象とした包括的データセットであるDiFFを紹介する。
人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。
その結果、人間の観察者と自動検出者の2値検出精度は30%以下であることが判明した。
論文 参考訳(メタデータ) (2024-01-29T03:20:19Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and
Saliency Tells You Where [68.24640128324778]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Single Image Cloud Detection via Multi-Image Fusion [23.641624507709274]
アルゴリズム開発における主な課題は、注釈付きトレーニングデータを集めるコストである。
マルチイメージフュージョンの最近の進歩が、シングルイメージクラウド検出のブートストラップにどのように活用できるかを実証する。
我々は、ランドカバー用のピクセルごとのセマンティックラベリングとともに、Sentinel-2画像の大規模なデータセットを収集した。
論文 参考訳(メタデータ) (2020-07-29T22:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。