論文の概要: Denoising Diffusion Autoencoders are Unified Self-supervised Learners
- arxiv url: http://arxiv.org/abs/2303.09769v2
- Date: Sat, 19 Aug 2023 11:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:44:41.013214
- Title: Denoising Diffusion Autoencoders are Unified Self-supervised Learners
- Title(参考訳): denoising diffusion autoencoderは統一された自己教師付き学習者である
- Authors: Weilai Xiang, Hongyu Yang, Di Huang, Yunhong Wang
- Abstract要約: 本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
- 参考スコア(独自算出の注目度): 58.194184241363175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by recent advances in diffusion models, which are reminiscent of
denoising autoencoders, we investigate whether they can acquire discriminative
representations for classification via generative pre-training. This paper
shows that the networks in diffusion models, namely denoising diffusion
autoencoders (DDAE), are unified self-supervised learners: by pre-training on
unconditional image generation, DDAE has already learned strongly
linear-separable representations within its intermediate layers without
auxiliary encoders, thus making diffusion pre-training emerge as a general
approach for generative-and-discriminative dual learning. To validate this, we
conduct linear probe and fine-tuning evaluations. Our diffusion-based approach
achieves 95.9% and 50.0% linear evaluation accuracies on CIFAR-10 and
Tiny-ImageNet, respectively, and is comparable to contrastive learning and
masked autoencoders for the first time. Transfer learning from ImageNet also
confirms the suitability of DDAE for Vision Transformers, suggesting the
potential to scale DDAEs as unified foundation models. Code is available at
github.com/FutureXiang/ddae.
- Abstract(参考訳): 自動エンコーダを連想させる拡散モデルの最近の進歩に触発され、生成前訓練により分類のための識別的表現を得られるかを検討する。
本稿では、拡散モデルにおけるネットワーク、すなわち拡散オートエンコーダ(DDAE)が、非条件画像生成の事前学習により、補助エンコーダを使わずに中間層内で線形分離表現を強く学習し、拡散事前学習を生成・識別二重学習の一般的なアプローチとして実現していることを示す。
これを検証するために,線形プローブおよび微調整評価を行う。
拡散ベースアプローチはcifar-10とtiny-imagenetでそれぞれ95.9%と50.0%の線形評価精度を達成し、初めてコントラスト学習とマスキングオートエンコーダに匹敵する。
ImageNetからの転送学習では、ビジョントランスフォーマーのDDAEの適合性も確認されており、DDAEを統合基盤モデルとして拡張する可能性を示唆している。
コードはgithub.com/FutureXiang/ddaeで入手できる。
関連論文リスト
- Denoising Autoregressive Representation Learning [14.819256445166523]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Frequency Compensated Diffusion Model for Real-scene Dehazing [6.105813272271171]
本研究では,実ヘイズへの一般化を改善する条件付き拡散モデルに基づく脱ヘイズフレームワークについて考察する。
提案手法は, 実世界の画像において, 最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-08-21T06:50:44Z) - Recovering high-quality FODs from a reduced number of diffusion-weighted
images using a model-driven deep learning architecture [0.0]
モデル駆動型深層学習FOD再構成アーキテクチャを提案する。
ネットワークが生成する中間および出力FODが、入力されたDWI信号と一致していることを保証する。
モデルに基づくディープラーニングアーキテクチャは,最先端のFOD超解像ネットワークであるFOD-Netと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-28T02:47:34Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。