論文の概要: Self-Supervised Scene De-occlusion
- arxiv url: http://arxiv.org/abs/2004.02788v1
- Date: Mon, 6 Apr 2020 16:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:02:34.532643
- Title: Self-Supervised Scene De-occlusion
- Title(参考訳): 自己監督シーンの閉鎖
- Authors: Xiaohang Zhan, Xingang Pan, Bo Dai, Ziwei Liu, Dahua Lin, Chen Change
Loy
- Abstract要約: 本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
- 参考スコア(独自算出の注目度): 186.89979151728636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural scene understanding is a challenging task, particularly when
encountering images of multiple objects that are partially occluded. This
obstacle is given rise by varying object ordering and positioning. Existing
scene understanding paradigms are able to parse only the visible parts,
resulting in incomplete and unstructured scene interpretation. In this paper,
we investigate the problem of scene de-occlusion, which aims to recover the
underlying occlusion ordering and complete the invisible parts of occluded
objects. We make the first attempt to address the problem through a novel and
unified framework that recovers hidden scene structures without ordering and
amodal annotations as supervisions. This is achieved via Partial Completion
Network (PCNet)-mask (M) and -content (C), that learn to recover fractions of
object masks and contents, respectively, in a self-supervised manner. Based on
PCNet-M and PCNet-C, we devise a novel inference scheme to accomplish scene
de-occlusion, via progressive ordering recovery, amodal completion and content
completion. Extensive experiments on real-world scenes demonstrate the superior
performance of our approach to other alternatives. Remarkably, our approach
that is trained in a self-supervised manner achieves comparable results to
fully-supervised methods. The proposed scene de-occlusion framework benefits
many applications, including high-quality and controllable image manipulation
and scene recomposition (see Fig. 1), as well as the conversion of existing
modal mask annotations to amodal mask annotations.
- Abstract(参考訳): 自然の風景理解は、特に部分的に遮蔽された複数の物体の画像に遭遇する場合、難しい課題である。
この障害は、オブジェクトの順序や位置を変えることで生じる。
既存のシーン理解パラダイムは、可視部分のみを解析することができ、不完全で非構造的なシーン解釈をもたらす。
そこで本研究では, 咬合順序を回復し, 咬合対象の目に見えない部分を完備することを目的とした, 閉鎖シーンの課題について検討する。
オーダリングやアモーダルアノテーションをスーパーバイザとして使わずに隠れたシーン構造を復元する、新しく統一されたフレームワークを通じて、この問題に対処する最初の試みを行ないます。
これはPCNet (Partial Completion Network)-mask (M) と-content (C) によって実現され、オブジェクトマスクとコンテンツの分画を自己管理的に復元する。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デクルージョンを実現する新しい推論手法を提案する。
実世界のシーンでの広範囲な実験は、他の選択肢に対する我々のアプローチの優れたパフォーマンスを示しています。
驚くべきことに、自己監督的な方法で訓練された我々のアプローチは、完全に監督された方法と同等の結果を得る。
提案したシーン除去フレームワークは,高品質で制御可能な画像操作やシーン再構成など,多数のアプリケーションに有効である(図1参照)。
関連論文リスト
- Open-World Amodal Appearance Completion [14.398395372699207]
オープンワールド・アモーダル・アプライアンス・コンプリート(Open-World Amodal Appearance Completion)は、アモーダル・コンプリート機能を拡張するトレーニングフリーのフレームワークである。
我々のアプローチは、直接項と抽象クエリの両方で指定された任意のオブジェクトに一般化する。
論文 参考訳(メタデータ) (2024-11-20T03:45:48Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders [93.87585467898252]
Masked Autoencodersにインスパイアされたモノクラー3D検出器MonoMAEを設計する。
MonoMAEは2つの新しい設計で構成されている。第一に、非閉塞オブジェクトクエリの特定の部分を選択的にマスキングするディープ・アウェア・マスクである。
2つ目は軽量なクエリ補完で、ディープ・アウェア・マスキングと連携して、マスキングされたオブジェクトクエリの再構築と完了を学習する。
論文 参考訳(メタデータ) (2024-05-13T12:32:45Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。