論文の概要: SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.11281v1
- Date: Thu, 18 May 2023 19:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:30:35.224776
- Title: SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models
- Title(参考訳): slotdiffusion:拡散モデルを用いたオブジェクト中心生成モデル
- Authors: Ziyi Wu, Jingyu Hu, Wuyue Lu, Igor Gilitschenski, Animesh Garg
- Abstract要約: SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
- 参考スコア(独自算出の注目度): 24.491176380593895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric learning aims to represent visual data with a set of object
entities (a.k.a. slots), providing structured representations that enable
systematic generalization. Leveraging advanced architectures like Transformers,
recent approaches have made significant progress in unsupervised object
discovery. In addition, slot-based representations hold great potential for
generative modeling, such as controllable image generation and object
manipulation in image editing. However, current slot-based methods often
produce blurry images and distorted objects, exhibiting poor generative
modeling capabilities. In this paper, we focus on improving slot-to-image
decoding, a crucial aspect for high-quality visual generation. We introduce
SlotDiffusion -- an object-centric Latent Diffusion Model (LDM) designed for
both image and video data. Thanks to the powerful modeling capacity of LDMs,
SlotDiffusion surpasses previous slot models in unsupervised object
segmentation and visual generation across six datasets. Furthermore, our
learned object features can be utilized by existing object-centric dynamics
models, improving video prediction quality and downstream temporal reasoning
tasks. Finally, we demonstrate the scalability of SlotDiffusion to
unconstrained real-world datasets such as PASCAL VOC and COCO, when integrated
with self-supervised pre-trained image encoders.
- Abstract(参考訳): オブジェクト中心学習は、視覚データを一連のオブジェクトエンティティ(つまりスロット)で表現することを目的としており、体系的な一般化を可能にする構造化表現を提供する。
トランスフォーマーのような高度なアーキテクチャを活用することで、最近のアプローチは教師なしオブジェクト発見において大きな進歩を遂げている。
さらに、スロットベースの表現は、制御可能な画像生成や画像編集におけるオブジェクト操作など、生成モデルに大きな可能性を秘めている。
しかし、現在のスロットベースの方法は、しばしばぼやけた画像や歪んだオブジェクトを生成し、生成的モデリング能力に乏しい。
本稿では,高品質な視覚生成のための重要な側面であるスロット・ツー・イメージデコードの改善に焦点をあてる。
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは6つのデータセットにわたる教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
さらに,学習対象の特徴を既存のオブジェクト中心ダイナミクスモデルで活用し,映像予測品質と下流時間推論タスクを改善する。
最後に,自己教師付き事前学習画像エンコーダと統合した場合,pascal vocやcocoなどの無拘束実世界データセットへのslotdiffusionのスケーラビリティを示す。
関連論文リスト
- 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - Guided Latent Slot Diffusion for Object-Centric Learning [13.721373817758307]
GLASSは、生成したキャプションを誘導信号として使用して、スロットとオブジェクトとの整合性を向上するオブジェクト中心モデルである。
物体発見のため、GLASSは従来のSOTA法に比べてmIoUの35%、+10%の相対的な改善を達成している。
セグメンテーションタスクでは、GLASSはそのタスク用に特別に設計されたSOTAの弱い教師付きおよび言語ベースのセグメンテーションモデルを上回っている。
論文 参考訳(メタデータ) (2024-07-25T10:38:32Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models [30.313085784715575]
学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。
本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。
また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
論文 参考訳(メタデータ) (2022-10-12T01:53:58Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。