論文の概要: Slot-VAE: Object-Centric Scene Generation with Slot Attention
- arxiv url: http://arxiv.org/abs/2306.06997v1
- Date: Mon, 12 Jun 2023 09:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:08:35.324317
- Title: Slot-VAE: Object-Centric Scene Generation with Slot Attention
- Title(参考訳): Slot-VAE:スロット注意によるオブジェクト中心のシーン生成
- Authors: Yanbo Wang, Letao Liu, Justin Dauwels
- Abstract要約: Slot-VAEはオブジェクト中心の構造的シーン生成のための階層的VAEフレームワークとスロットアテンションを統合した生成モデルである。
シーン生成能力の評価は,Slot-VAEがサンプル品質とシーン構造精度でスロット表現に基づく生成ベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 15.024677644412423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slot attention has shown remarkable object-centric representation learning
performance in computer vision tasks without requiring any supervision. Despite
its object-centric binding ability brought by compositional modelling, as a
deterministic module, slot attention lacks the ability to generate novel
scenes. In this paper, we propose the Slot-VAE, a generative model that
integrates slot attention with the hierarchical VAE framework for
object-centric structured scene generation. For each image, the model
simultaneously infers a global scene representation to capture high-level scene
structure and object-centric slot representations to embed individual object
components. During generation, slot representations are generated from the
global scene representation to ensure coherent scene structures. Our extensive
evaluation of the scene generation ability indicates that Slot-VAE outperforms
slot representation-based generative baselines in terms of sample quality and
scene structure accuracy.
- Abstract(参考訳): スロット注意は、コンピュータビジョンタスクにおいて、監督を必要とせずに、目覚ましいオブジェクト中心表現学習性能を示す。
合成モデリングによって引き起こされたオブジェクト中心の結合能力にもかかわらず、スロットアテンションは新規シーンを生成する能力に欠ける。
本稿では,オブジェクト中心のシーン生成のための階層型VAEフレームワークとスロットアテンションを統合した生成モデルであるSlot-VAEを提案する。
各画像に対して、モデルは、高レベルなシーン構造とオブジェクト中心のスロット表現を同時に推定し、個々のオブジェクトコンポーネントを埋め込む。
生成中、スロット表現がグローバルシーン表現から生成され、コヒーレントなシーン構造が保証される。
Slot-VAEによるシーン生成能力の評価は,サンプル品質とシーン構造精度において,スロット表現に基づく生成ベースラインよりも優れていることを示す。
関連論文リスト
- Attention Normalization Impacts Cardinality Generalization in Slot Attention [6.9099729240700825]
そこで本研究では,スロット数やオブジェクト数に応じてスロットアテンションの機能を向上する,元の正規化方式の代替案を提案し,検討する。
新たに提案された正規化は、通常のSlot Attentionモジュールの変更を簡単に実装できる最小限のものである。
論文 参考訳(メタデータ) (2024-07-04T22:09:01Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Object-Centric Representation Learning with Generative Spatial-Temporal
Factorization [5.403549896734018]
DyMON(Dynamics-Aware Multi-Object Network)は,動的シーンへの多視点オブジェクト中心表現学習の範囲を広げる手法である。
そこで我々は,DyMONが観測者の動きとシーンオブジェクトの運動の絡み合った影響を,一連の観測結果から分解することを学習していることを示す。
また,要因化されたシーン表現は,空間と時間で独立して単一のオブジェクトを問合せできることを示す。
論文 参考訳(メタデータ) (2021-11-09T20:04:16Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。