Fugu-MT 論文翻訳(概要): SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models

論文の概要: SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models

arxiv url: http://arxiv.org/abs/2305.11281v1
Date: Thu, 18 May 2023 19:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 17:30:35.224776
Title: SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models
Title（参考訳）: slotdiffusion:拡散モデルを用いたオブジェクト中心生成モデル
Authors: Ziyi Wu, Jingyu Hu, Wuyue Lu, Igor Gilitschenski, Animesh Garg
Abstract要約: SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。 LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
参考スコア（独自算出の注目度）: 24.491176380593895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object-centric learning aims to represent visual data with a set of object entities (a.k.a. slots), providing structured representations that enable systematic generalization. Leveraging advanced architectures like Transformers, recent approaches have made significant progress in unsupervised object discovery. In addition, slot-based representations hold great potential for generative modeling, such as controllable image generation and object manipulation in image editing. However, current slot-based methods often produce blurry images and distorted objects, exhibiting poor generative modeling capabilities. In this paper, we focus on improving slot-to-image decoding, a crucial aspect for high-quality visual generation. We introduce SlotDiffusion -- an object-centric Latent Diffusion Model (LDM) designed for both image and video data. Thanks to the powerful modeling capacity of LDMs, SlotDiffusion surpasses previous slot models in unsupervised object segmentation and visual generation across six datasets. Furthermore, our learned object features can be utilized by existing object-centric dynamics models, improving video prediction quality and downstream temporal reasoning tasks. Finally, we demonstrate the scalability of SlotDiffusion to unconstrained real-world datasets such as PASCAL VOC and COCO, when integrated with self-supervised pre-trained image encoders.
Abstract（参考訳）: オブジェクト中心学習は、視覚データを一連のオブジェクトエンティティ(つまりスロット)で表現することを目的としており、体系的な一般化を可能にする構造化表現を提供する。トランスフォーマーのような高度なアーキテクチャを活用することで、最近のアプローチは教師なしオブジェクト発見において大きな進歩を遂げている。さらに、スロットベースの表現は、制御可能な画像生成や画像編集におけるオブジェクト操作など、生成モデルに大きな可能性を秘めている。しかし、現在のスロットベースの方法は、しばしばぼやけた画像や歪んだオブジェクトを生成し、生成的モデリング能力に乏しい。本稿では,高品質な視覚生成のための重要な側面であるスロット・ツー・イメージデコードの改善に焦点をあてる。 SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。 LDMの強力なモデリング能力のおかげで、SlotDiffusionは6つのデータセットにわたる教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。さらに,学習対象の特徴を既存のオブジェクト中心ダイナミクスモデルで活用し,映像予測品質と下流時間推論タスクを改善する。最後に,自己教師付き事前学習画像エンコーダと統合した場合,pascal vocやcocoなどの無拘束実世界データセットへのslotdiffusionのスケーラビリティを示す。

関連論文リスト

From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-11T04:42:59Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
HRR: Hierarchical Retrospection Refinement for Generated Image Detection [16.958383381415445]
階層的レトロスペクティブ再定義(HRR)と呼ばれる拡散モデルに基づく生成画像検出フレームワークを提案する。 HRRフレームワークは、生成した画像検出タスクにおいて、最先端のメソッドよりも優れたパフォーマンスを継続的に提供する。
論文参考訳（メタデータ） (2025-02-25T05:13:44Z)
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文参考訳（メタデータ） (2024-08-25T09:31:22Z)
Guided Latent Slot Diffusion for Object-Centric Learning [13.721373817758307]
GLASSは、生成したキャプションを誘導信号として使用して、スロットとオブジェクトとの整合性を向上するオブジェクト中心モデルである。物体発見のため、GLASSは従来のSOTA法に比べてmIoUの35%、+10%の相対的な改善を達成している。セグメンテーションタスクでは、GLASSはそのタスク用に特別に設計されたSOTAの弱い教師付きおよび言語ベースのセグメンテーションモデルを上回っている。
論文参考訳（メタデータ） (2024-07-25T10:38:32Z)
SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文参考訳（メタデータ） (2023-11-29T18:53:34Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文参考訳（メタデータ） (2023-03-20T02:40:16Z)
SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models [30.313085784715575]
学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
論文参考訳（メタデータ） (2022-10-12T01:53:58Z)
VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。新しいオブジェクト検出モデルを公開します。
論文参考訳（メタデータ） (2021-01-02T23:35:27Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。