論文の概要: Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition
- arxiv url: http://arxiv.org/abs/2104.05367v1
- Date: Mon, 12 Apr 2021 11:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:06:28.291567
- Title: Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition
- Title(参考訳): visit the invisible: layer-by-layer completed scene decomposition(英語)
- Authors: Chuanxia Zheng, Duy-Son Dao, Guoxian Song, Tat-Jen Cham, Jianfei Cai
- Abstract要約: 既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
- 参考スコア(独自算出の注目度): 57.088328223220934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing scene understanding systems mainly focus on recognizing the visible
parts of a scene, ignoring the intact appearance of physical objects in the
real-world. Concurrently, image completion has aimed to create plausible
appearance for the invisible regions, but requires a manual mask as input. In
this work, we propose a higher-level scene understanding system to tackle both
visible and invisible parts of objects and backgrounds in a given scene.
Particularly, we built a system to decompose a scene into individual objects,
infer their underlying occlusion relationships, and even automatically learn
which parts of the objects are occluded that need to be completed. In order to
disentangle the occluded relationships of all objects in a complex scene, we
use the fact that the front object without being occluded is easy to be
identified, detected, and segmented. Our system interleaves the two tasks of
instance segmentation and scene completion through multiple iterations, solving
for objects layer-by-layer. We first provide a thorough experiment using a new
realistically rendered dataset with ground-truths for all invisible regions. To
bridge the domain gap to real imagery where ground-truths are unavailable, we
then train another model with the pseudo-ground-truths generated from our
trained synthesis model. We demonstrate results on a wide variety of datasets
and show significant improvement over the state-of-the-art.
- Abstract(参考訳): 既存のシーン理解システムは、実世界の物理的物体の無傷な外観を無視して、シーンの目に見える部分の認識に重点を置いている。
同時に、画像補完は、目に見えない領域に対して可視な外観を作り出すことを目的としているが、入力には手動マスクが必要である。
本研究では,対象物や背景の可視・可視の両方に対処する,より高レベルなシーン理解システムを提案する。
特に,シーンを個々のオブジェクトに分解し,その下位のオクルージョン関係を推測し,そのオブジェクトのどの部分が完了する必要があるかを自動で学習するシステムを構築した。
複雑なシーンにおけるすべてのオブジェクトのオクルードされた関係を解消するために、オクルードされていないフロントオブジェクトの識別、検出、セグメンテーションが容易であるという事実を用いる。
本システムでは,複数反復によるシーン分割とシーン補完の2つのタスクをインターリーブする。
まず、すべての見えない領域に対して、地上構造を持つ新しい現実的なデータセットを用いて、徹底的な実験を行う。
ドメインギャップを実際のイメージに橋渡しするために、トレーニングされた合成モデルから生成された疑似グランドルースを使って、別のモデルをトレーニングします。
我々は、さまざまなデータセットで結果を示し、最先端よりも大幅な改善を示す。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - ViFu: Multiple 360$^\circ$ Objects Reconstruction with Clean Background via Visible Part Fusion [7.8788463395442045]
本研究では,異なるタイムスタンプのシーンから,静的でクリーンな背景と360ドル単位のオブジェクトを分割して回収する手法を提案する。
我々の基本的な考え方は、同じ物体の集合を様々な配置で観察することで、あるシーンで見えない部分が他のシーンで見えるようになるというものである。
論文 参考訳(メタデータ) (2024-04-15T02:44:23Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Scene-level Tracking and Reconstruction without Object Priors [14.068026331380844]
本研究では,各シーンにおける可視物体の追跡と再構成を行うことのできる,初めてのリアルタイムシステムを提案する。
提案システムでは,新しいシーンにおける全可視物体のライブな形状と変形をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2022-10-07T20:56:14Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Learning Object-Compositional Neural Radiance Field for Editable Scene
Rendering [42.37007176376849]
本稿では,物体合成型ニューラルラジアンス場を学習し,クラスタ化された実世界のシーンをリアルにレンダリングするニューラルシーンレンダリングシステムを提案する。
密集したシーンでのトレーニングを生き残るために, 密集した領域における3次元空間のあいまいさを解消し, それぞれの物体の鋭い境界を学習するためのシーン誘導型トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-09-04T11:37:18Z) - Object-Centric Image Generation with Factored Depths, Locations, and
Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-01T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。