論文の概要: Object-Centric Slot Diffusion
- arxiv url: http://arxiv.org/abs/2303.10834v1
- Date: Mon, 20 Mar 2023 02:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:59:09.193546
- Title: Object-Centric Slot Diffusion
- Title(参考訳): オブジェクト中心スロット拡散
- Authors: Jindong Jiang, Fei Deng, Gautam Singh, Sungjin Ahn
- Abstract要約: 我々は、新しいオブジェクト中心学習モデル、Latent Slot Diffusion (LSD)を提案する。
オブジェクト中心学習の観点から、LSDは従来のスロットデコーダをオブジェクトスロットに条件付き遅延拡散モデルに置き換える。
オブジェクト中心の様々なタスクの実験において、LSDは最先端のトランスフォーマーベースのデコーダよりも大幅に優れることを示した。
- 参考スコア(独自算出の注目度): 26.420124961678052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable recent advances, making object-centric learning work for
complex natural scenes remains the main challenge. The recent success of
adopting the transformer-based image generative model in object-centric
learning suggests that having a highly expressive image generator is crucial
for dealing with complex scenes. In this paper, inspired by this observation,
we aim to answer the following question: can we benefit from the other pillar
of modern deep generative models, i.e., the diffusion models, for
object-centric learning and what are the pros and cons of such a model? To this
end, we propose a new object-centric learning model, Latent Slot Diffusion
(LSD). LSD can be seen from two perspectives. From the perspective of
object-centric learning, it replaces the conventional slot decoders with a
latent diffusion model conditioned on the object slots. Conversely, from the
perspective of diffusion models, it is the first unsupervised compositional
conditional diffusion model which, unlike traditional diffusion models, does
not require supervised annotation such as a text description to learn to
compose. In experiments on various object-centric tasks, including the FFHQ
dataset for the first time in this line of research, we demonstrate that LSD
significantly outperforms the state-of-the-art transformer-based decoder,
particularly when the scene is more complex. We also show a superior quality in
unsupervised compositional generation.
- Abstract(参考訳): 最近の顕著な進歩にもかかわらず、複雑な自然の場面でオブジェクト中心の学習作業を行うことが大きな課題である。
近年、オブジェクト中心学習におけるトランスフォーマーベース画像生成モデルの採用の成功は、複雑なシーンを扱う上で、表現力の高い画像生成装置を持つことが重要であることを示唆している。
本稿では,この観察に触発されて,現代的深層生成モデルの他の柱,すなわち拡散モデル,オブジェクト中心学習,およびそのようなモデルの長所と短所の恩恵を受けることができるか,という問いに答える。
そこで本研究では,新たなオブジェクト中心学習モデルであるLatent Slot Diffusion (LSD)を提案する。
LSDは2つの視点から見ることができる。
オブジェクト中心学習の観点からは、従来のスロットデコーダをオブジェクトスロット上で条件付けられた潜在拡散モデルに置き換える。
逆に拡散モデルの観点からは、従来の拡散モデルとは異なり、構成を学ぶためにテキスト記述のような教師付きアノテーションを必要としない最初の教師なし構成条件拡散モデルである。
ffhqデータセットを含む様々なオブジェクト指向タスクの実験において、lsdが最先端のトランスフォーマベースのデコーダを、特にシーンが複雑である場合に大幅に上回っていることを実証する。
また、教師なし構成生成において優れた品質を示す。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture [0.0]
InsertDiffusionは、オブジェクトを画像に効率的に埋め込む、トレーニング不要の拡散アーキテクチャである。
提案手法は既製の生成モデルを利用し,微調整の必要性を排除している。
生成タスクを独立したステップに分解することで、InsertDiffusionはスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-15T10:15:58Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。