Fugu-MT 論文翻訳(概要): Object-level Scene Deocclusion

論文の概要: Object-level Scene Deocclusion

arxiv url: http://arxiv.org/abs/2406.07706v1
Date: Tue, 11 Jun 2024 20:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 21:06:16.996444
Title: Object-level Scene Deocclusion
Title（参考訳）: オブジェクトレベルのシーンデクルージョン
Authors: Zhengzhe Liu, Qing Liu, Chirui Chang, Jianming Zhang, Daniil Pakhomov, Haitian Zheng, Zhe Lin, Daniel Cohen-Or, Chi-Wing Fu,
Abstract要約: オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。 PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。 COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
参考スコア（独自算出の注目度）: 92.39886029550286
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deoccluding the hidden portions of objects in a scene is a formidable task, particularly when addressing real-world scenes. In this paper, we present a new self-supervised PArallel visible-to-COmplete diffusion framework, named PACO, a foundation model for object-level scene deocclusion. Leveraging the rich prior of pre-trained models, we first design the parallel variational autoencoder, which produces a full-view feature map that simultaneously encodes multiple complete objects, and the visible-to-complete latent generator, which learns to implicitly predict the full-view feature map from partial-view feature map and text prompts extracted from the incomplete objects in the input image. To train PACO, we create a large-scale dataset with 500k samples to enable self-supervised learning, avoiding tedious annotations of the amodal masks and occluded regions. At inference, we devise a layer-wise deocclusion strategy to improve efficiency while maintaining the deocclusion quality. Extensive experiments on COCOA and various real-world scenes demonstrate the superior capability of PACO for scene deocclusion, surpassing the state of the arts by a large margin. Our method can also be extended to cross-domain scenes and novel categories that are not covered by the training set. Further, we demonstrate the deocclusion applicability of PACO in single-view 3D scene reconstruction and object recomposition.
Abstract（参考訳）: シーン内のオブジェクトの隠された部分を取り除くことは、特に現実世界のシーンに対処する場合、非常に恐ろしい作業である。本稿では,オブジェクトレベルのシーン・デクルージョンの基礎モデルであるPACOという,自己制御型PArallel可視・コミュールト拡散フレームワークを提案する。事前訓練されたモデルのリッチな事前処理を活用して、複数の完全オブジェクトを同時に符号化するフルビュー特徴マップを生成する並列変分オートエンコーダと、部分ビュー特徴マップから全ビュー特徴マップを暗黙的に予測し、入力画像中の不完全オブジェクトから抽出したテキストプロンプトを学習する可視から完全ラテント生成器を設計する。 PACOをトレーニングするために、500kサンプルによる大規模データセットを作成し、アモーダルマスクや隠蔽領域の退屈なアノテーションを回避し、自己教師付き学習を可能にする。提案手法では,非閉塞性を維持しつつ,効率向上を図るため,層単位の非閉塞性戦略を考案する。 COCOAと様々な現実世界のシーンに対する大規模な実験は、PACOがシーンの排除に優れた能力を示し、最先端の技術をはるかに上回っていることを示している。また,本手法は,トレーニングセットがカバーしていないクロスドメインシーンや新しいカテゴリにも拡張可能である。さらに,単視点3次元シーン再構成とオブジェクト再構成におけるPACOの非閉塞性を示す。

関連論文リスト

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文参考訳（メタデータ） (2025-04-17T16:33:39Z)
sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views [41.73382885439258]
外向きのビューから屋外のシーンを再構築することは、ビューの重複を最小限に抑えるため、大きな課題となる。階層外挿による非有界3次元シーン再構成のための高速単発パイプラインを提案する。 latentELFは、隠された領域を忠実に再構築し、リアルタイムレンダリングをサポートし、下流アプリケーションにリッチな機能を提供する。
論文参考訳（メタデータ） (2025-02-06T18:58:45Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
ObjectCarver: Semi-automatic segmentation, reconstruction and separation of 3D objects [44.38881095466177]
複数の画像から3次元表面を再構成する際、暗黙の神経磁場は顕著な進歩を遂げた。これまでの研究は、署名された距離フィールドを個別に訓練するフレームワークを導入して、この問題に対処しようと試みてきた。一つのビューで単に入力をクリックすることからオブジェクト分離の問題に取り組むために、ObjectCarverというメソッドを導入します。
論文参考訳（メタデータ） (2024-07-26T22:13:20Z)
Self-supervised 3D Point Cloud Completion via Multi-view Adversarial Learning [61.14132533712537]
我々は、オブジェクトレベルとカテゴリ固有の幾何学的類似性の両方を効果的に活用するフレームワークであるMAL-SPCを提案する。私たちのMAL-SPCは3Dの完全な監視を一切必要とせず、各オブジェクトに1つの部分点クラウドを必要とするだけです。
論文参考訳（メタデータ） (2024-07-13T06:53:39Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文参考訳（メタデータ） (2024-05-09T14:17:26Z)
Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文参考訳（メタデータ） (2021-10-13T08:22:04Z)
Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文参考訳（メタデータ） (2021-04-12T11:37:23Z)
Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文参考訳（メタデータ） (2020-04-06T16:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。