論文の概要: SPACE: Unsupervised Object-Oriented Scene Representation via Spatial
Attention and Decomposition
- arxiv url: http://arxiv.org/abs/2001.02407v3
- Date: Sun, 15 Mar 2020 20:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 09:32:32.461103
- Title: SPACE: Unsupervised Object-Oriented Scene Representation via Spatial
Attention and Decomposition
- Title(参考訳): SPACE:空間的注意と分解による教師なしオブジェクト指向シーン表現
- Authors: Zhixuan Lin, Yi-Fu Wu, Skand Vishwanath Peri, Weihao Sun, Gautam
Singh, Fei Deng, Jindong Jiang, Sungjin Ahn
- Abstract要約: 本研究では,空間アテンションとシーンミキシングの最も優れた組み合わせを組み合わせた,SPACEと呼ばれる潜在変数生成モデルを提案する。
本研究では, SPACEがSPAIR, IODINE, GENESISと比較して, 上述の特性を連続的に達成する実験を, Atari および 3D-Rooms で行った。
- 参考スコア(独自算出の注目度): 26.42139271058149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to decompose complex multi-object scenes into meaningful
abstractions like objects is fundamental to achieve higher-level cognition.
Previous approaches for unsupervised object-oriented scene representation
learning are either based on spatial-attention or scene-mixture approaches and
limited in scalability which is a main obstacle towards modeling real-world
scenes. In this paper, we propose a generative latent variable model, called
SPACE, that provides a unified probabilistic modeling framework that combines
the best of spatial-attention and scene-mixture approaches. SPACE can
explicitly provide factorized object representations for foreground objects
while also decomposing background segments of complex morphology. Previous
models are good at either of these, but not both. SPACE also resolves the
scalability problems of previous methods by incorporating parallel
spatial-attention and thus is applicable to scenes with a large number of
objects without performance degradations. We show through experiments on Atari
and 3D-Rooms that SPACE achieves the above properties consistently in
comparison to SPAIR, IODINE, and GENESIS. Results of our experiments can be
found on our project website: https://sites.google.com/view/space-project-page
- Abstract(参考訳): 複雑なマルチオブジェクトシーンをオブジェクトのような意味のある抽象化に分解する能力は、より高いレベルの認知を実現するために不可欠である。
教師なしオブジェクト指向シーン表現学習の従来のアプローチは、空間的意図またはシーン混合アプローチに基づいており、現実のシーンをモデル化する主な障害となるスケーラビリティに制限がある。
本稿では,空間対応とシーン混合の最適なアプローチを組み合わせた統一確率的モデリングフレームワークとして,空間と呼ばれる生成的潜在変数モデルを提案する。
空間は、前景のオブジェクトに対する因子化されたオブジェクト表現を明示的に提供し、複雑な形態の背景セグメントを分解することができる。
以前のモデルはどちらも得意だが、両方ではない。
SPACEはまた、並列空間アテンションを取り入れた従来の手法のスケーラビリティ問題も解決し、性能劣化のない多数のオブジェクトを持つシーンに適用できる。
本研究では, SPACEがSPAIR, IODINE, GENESISと比較して, 上述の特性を連続的に達成する実験を, Atari および 3D-Rooms で行った。
実験の結果はプロジェクトのwebサイトにある: https://sites.google.com/view/space-project-page
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - SIMstack: A Generative Shape and Instance Model for Unordered Object
Stacks [38.042876641457255]
物理シミュレーションにより積み上げられた物体のデータセットに訓練された深度条件付き可変オートエンコーダ(VAE)を提案する。
インスタンスセグメンテーションは、クラスに依存しない検出を可能にし、シーン内のオブジェクトの最大数を設定する必要がないセンター投票タスクとして定式化します。
本手法は,ロボットに部分的に観察されたシーンを素早く直感的に推論する能力を与えるための実用的応用である。
論文 参考訳(メタデータ) (2021-03-30T15:42:43Z) - Robust Instance Segmentation through Reasoning about Multi-Object
Occlusion [9.536947328412198]
本稿では,隠蔽に頑健な多目的インスタンスセグメンテーションのためのディープネットワークを提案する。
私たちの研究は、神経機能アクティベーションの生成モデルを学習し、オクローダの発見に役立てています。
特に、オブジェクトクラスとそのインスタンスおよびオクルーダーセグメンテーションのフィードフォワード予測を得る。
論文 参考訳(メタデータ) (2020-12-03T17:41:55Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。