論文の概要: Self-Supervised Scene De-occlusion
- arxiv url: http://arxiv.org/abs/2004.02788v1
- Date: Mon, 6 Apr 2020 16:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:02:34.532643
- Title: Self-Supervised Scene De-occlusion
- Title(参考訳): 自己監督シーンの閉鎖
- Authors: Xiaohang Zhan, Xingang Pan, Bo Dai, Ziwei Liu, Dahua Lin, Chen Change
Loy
- Abstract要約: 本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
- 参考スコア(独自算出の注目度): 186.89979151728636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural scene understanding is a challenging task, particularly when
encountering images of multiple objects that are partially occluded. This
obstacle is given rise by varying object ordering and positioning. Existing
scene understanding paradigms are able to parse only the visible parts,
resulting in incomplete and unstructured scene interpretation. In this paper,
we investigate the problem of scene de-occlusion, which aims to recover the
underlying occlusion ordering and complete the invisible parts of occluded
objects. We make the first attempt to address the problem through a novel and
unified framework that recovers hidden scene structures without ordering and
amodal annotations as supervisions. This is achieved via Partial Completion
Network (PCNet)-mask (M) and -content (C), that learn to recover fractions of
object masks and contents, respectively, in a self-supervised manner. Based on
PCNet-M and PCNet-C, we devise a novel inference scheme to accomplish scene
de-occlusion, via progressive ordering recovery, amodal completion and content
completion. Extensive experiments on real-world scenes demonstrate the superior
performance of our approach to other alternatives. Remarkably, our approach
that is trained in a self-supervised manner achieves comparable results to
fully-supervised methods. The proposed scene de-occlusion framework benefits
many applications, including high-quality and controllable image manipulation
and scene recomposition (see Fig. 1), as well as the conversion of existing
modal mask annotations to amodal mask annotations.
- Abstract(参考訳): 自然の風景理解は、特に部分的に遮蔽された複数の物体の画像に遭遇する場合、難しい課題である。
この障害は、オブジェクトの順序や位置を変えることで生じる。
既存のシーン理解パラダイムは、可視部分のみを解析することができ、不完全で非構造的なシーン解釈をもたらす。
そこで本研究では, 咬合順序を回復し, 咬合対象の目に見えない部分を完備することを目的とした, 閉鎖シーンの課題について検討する。
オーダリングやアモーダルアノテーションをスーパーバイザとして使わずに隠れたシーン構造を復元する、新しく統一されたフレームワークを通じて、この問題に対処する最初の試みを行ないます。
これはPCNet (Partial Completion Network)-mask (M) と-content (C) によって実現され、オブジェクトマスクとコンテンツの分画を自己管理的に復元する。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デクルージョンを実現する新しい推論手法を提案する。
実世界のシーンでの広範囲な実験は、他の選択肢に対する我々のアプローチの優れたパフォーマンスを示しています。
驚くべきことに、自己監督的な方法で訓練された我々のアプローチは、完全に監督された方法と同等の結果を得る。
提案したシーン除去フレームワークは,高品質で制御可能な画像操作やシーン再構成など,多数のアプリケーションに有効である(図1参照)。
関連論文リスト
- Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [90.90962457393374]
我々は、独立した画像マスクと画像テキストペアを用いて、マスクとテキストの厳密な対応を解放する。
テキスト記述におけるマス予測と実体の信頼度を利用した弱教師付きオープン語彙セグメンテーションフレームワーク(Uni-OVSeg)を提案する。
テキストのみの弱教師付き手法と比較して、私たちのUni-OVSegはADE20Kデータセットで15.5% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。