論文の概要: SODA: Bottleneck Diffusion Models for Representation Learning
- arxiv url: http://arxiv.org/abs/2311.17901v1
- Date: Wed, 29 Nov 2023 18:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:08:18.701656
- Title: SODA: Bottleneck Diffusion Models for Representation Learning
- Title(参考訳): SODA:表現学習のためのボットネック拡散モデル
- Authors: Drew A. Hudson, Daniel Zoran, Mateusz Malinowski, Andrew K. Lampinen,
Andrew Jaegle, James L. McClelland, Loic Matthey, Felix Hill, Alexander
Lerchner
- Abstract要約: 本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
- 参考スコア(独自算出の注目度): 75.7331354734152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SODA, a self-supervised diffusion model, designed for
representation learning. The model incorporates an image encoder, which
distills a source view into a compact representation, that, in turn, guides the
generation of related novel views. We show that by imposing a tight bottleneck
between the encoder and a denoising decoder, and leveraging novel view
synthesis as a self-supervised objective, we can turn diffusion models into
strong representation learners, capable of capturing visual semantics in an
unsupervised manner. To the best of our knowledge, SODA is the first diffusion
model to succeed at ImageNet linear-probe classification, and, at the same
time, it accomplishes reconstruction, editing and synthesis tasks across a wide
range of datasets. Further investigation reveals the disentangled nature of its
emergent latent space, that serves as an effective interface to control and
manipulate the model's produced images. All in all, we aim to shed light on the
exciting and promising potential of diffusion models, not only for image
generation, but also for learning rich and robust representations.
- Abstract(参考訳): 本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、それによって関連する新規ビューの生成が導かれる。
我々は,エンコーダとデノイジングデコーダの間の密なボトルネックを課し,新しいビュー合成を自己教師付き目標として活用することにより,拡散モデルを強い表現学習者に変換し,教師なしの視覚的意味を捉えることができることを示す。
我々の知る限り、SODAはImageNetの線形プローブ分類を成功させた最初の拡散モデルであり、同時に、幅広いデータセットにわたる再構成、編集、合成タスクを達成している。
さらなる調査により、モデルが生成した画像の制御と操作に有効なインターフェースとして機能する、創発的潜在空間の絡み合った性質が明らかにされる。
全体としては、画像生成だけでなく、リッチでロバストな表現を学ぶために、拡散モデルのエキサイティングで有望な可能性に光を当てようとしている。
関連論文リスト
- Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Decoupling Global and Local Representations via Invertible Generative
Flows [47.366299240738094]
標準画像ベンチマークによる実験結果から, 密度推定, 画像生成, 教師なし表現学習の観点から, モデルの有効性が示された。
この研究は、確率に基づく目的を持つ生成モデルが疎結合表現を学習でき、明示的な監督を必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-12T03:18:13Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。