論文の概要: Object-Centric Slot Diffusion
- arxiv url: http://arxiv.org/abs/2303.10834v1
- Date: Mon, 20 Mar 2023 02:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:59:09.193546
- Title: Object-Centric Slot Diffusion
- Title(参考訳): オブジェクト中心スロット拡散
- Authors: Jindong Jiang, Fei Deng, Gautam Singh, Sungjin Ahn
- Abstract要約: 我々は、新しいオブジェクト中心学習モデル、Latent Slot Diffusion (LSD)を提案する。
オブジェクト中心学習の観点から、LSDは従来のスロットデコーダをオブジェクトスロットに条件付き遅延拡散モデルに置き換える。
オブジェクト中心の様々なタスクの実験において、LSDは最先端のトランスフォーマーベースのデコーダよりも大幅に優れることを示した。
- 参考スコア(独自算出の注目度): 26.420124961678052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable recent advances, making object-centric learning work for
complex natural scenes remains the main challenge. The recent success of
adopting the transformer-based image generative model in object-centric
learning suggests that having a highly expressive image generator is crucial
for dealing with complex scenes. In this paper, inspired by this observation,
we aim to answer the following question: can we benefit from the other pillar
of modern deep generative models, i.e., the diffusion models, for
object-centric learning and what are the pros and cons of such a model? To this
end, we propose a new object-centric learning model, Latent Slot Diffusion
(LSD). LSD can be seen from two perspectives. From the perspective of
object-centric learning, it replaces the conventional slot decoders with a
latent diffusion model conditioned on the object slots. Conversely, from the
perspective of diffusion models, it is the first unsupervised compositional
conditional diffusion model which, unlike traditional diffusion models, does
not require supervised annotation such as a text description to learn to
compose. In experiments on various object-centric tasks, including the FFHQ
dataset for the first time in this line of research, we demonstrate that LSD
significantly outperforms the state-of-the-art transformer-based decoder,
particularly when the scene is more complex. We also show a superior quality in
unsupervised compositional generation.
- Abstract(参考訳): 最近の顕著な進歩にもかかわらず、複雑な自然の場面でオブジェクト中心の学習作業を行うことが大きな課題である。
近年、オブジェクト中心学習におけるトランスフォーマーベース画像生成モデルの採用の成功は、複雑なシーンを扱う上で、表現力の高い画像生成装置を持つことが重要であることを示唆している。
本稿では,この観察に触発されて,現代的深層生成モデルの他の柱,すなわち拡散モデル,オブジェクト中心学習,およびそのようなモデルの長所と短所の恩恵を受けることができるか,という問いに答える。
そこで本研究では,新たなオブジェクト中心学習モデルであるLatent Slot Diffusion (LSD)を提案する。
LSDは2つの視点から見ることができる。
オブジェクト中心学習の観点からは、従来のスロットデコーダをオブジェクトスロット上で条件付けられた潜在拡散モデルに置き換える。
逆に拡散モデルの観点からは、従来の拡散モデルとは異なり、構成を学ぶためにテキスト記述のような教師付きアノテーションを必要としない最初の教師なし構成条件拡散モデルである。
ffhqデータセットを含む様々なオブジェクト指向タスクの実験において、lsdが最先端のトランスフォーマベースのデコーダを、特にシーンが複雑である場合に大幅に上回っていることを実証する。
また、教師なし構成生成において優れた品質を示す。
関連論文リスト
- Diffusion Models Trained with Large Data Are Transferable Visual Models [51.9937114613558]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Taming Latent Diffusion Models to See in the Dark [65.6004750218506]
LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。
入力されたRAW画像に2次元離散ウェーブレット変換を適用し、LLIEタスクを低周波コンテンツ生成と高周波ディテールメンテナンスという2つの重要な部分に分割する。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing [98.30393804479152]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。