論文の概要: BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D
Scene Reconstruction From A Single Image
- arxiv url: http://arxiv.org/abs/2306.00965v1
- Date: Thu, 1 Jun 2023 17:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:01:20.940253
- Title: BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D
Scene Reconstruction From A Single Image
- Title(参考訳): BUOL:1枚の画像からパノプティカル3Dシーンを再現するボトムアップフレームワーク
- Authors: Tao Chu, Pan Zhang, Qiong Liu, Jiaqi Wang
- Abstract要約: BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。
提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.63587644870387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and modeling the 3D scene from a single image is a practical
problem. A recent advance proposes a panoptic 3D scene reconstruction task that
performs both 3D reconstruction and 3D panoptic segmentation from a single
image. Although having made substantial progress, recent works only focus on
top-down approaches that fill 2D instances into 3D voxels according to
estimated depth, which hinders their performance by two ambiguities. (1)
instance-channel ambiguity: The variable ids of instances in each scene lead to
ambiguity during filling voxel channels with 2D information, confusing the
following 3D refinement. (2) voxel-reconstruction ambiguity: 2D-to-3D lifting
with estimated single view depth only propagates 2D information onto the
surface of 3D regions, leading to ambiguity during the reconstruction of
regions behind the frontal view surface. In this paper, we propose BUOL, a
Bottom-Up framework with Occupancy-aware Lifting to address the two issues for
panoptic 3D scene reconstruction from a single image. For instance-channel
ambiguity, a bottom-up framework lifts 2D information to 3D voxels based on
deterministic semantic assignments rather than arbitrary instance id
assignments. The 3D voxels are then refined and grouped into 3D instances
according to the predicted 2D instance centers. For voxel-reconstruction
ambiguity, the estimated multi-plane occupancy is leveraged together with depth
to fill the whole regions of things and stuff. Our method shows a tremendous
performance advantage over state-of-the-art methods on synthetic dataset
3D-Front and real-world dataset Matterport3D. Code and models are available in
https://github.com/chtsy/buol.
- Abstract(参考訳): 一つの画像から3dシーンを理解・モデル化することは現実的な問題である。
近年,1枚の画像から3次元の立体再構成と3次元の立体分割を行うパノプティカル3Dシーン再構築タスクが提案されている。
かなり進歩したが、最近の研究は、2Dインスタンスを推定深度に応じて3Dボクセルに詰め込むトップダウンアプローチにのみ焦点を当てている。
1) インスタンスチャネルの曖昧さ: 各シーンのインスタンスの可変IDは, ボクセルチャネルを2次元情報で埋める際の曖昧さを引き起こし, 以下の3次元改善を混乱させる。
2) ボクセル・リコンストラクションの曖昧さ: 単一視深度を推定した2D-to-3Dリフトは3次元領域の表面にのみ2D情報を伝播させ, 前方視面後方の領域の再構築において曖昧性をもたらす。
本稿では,1枚の画像からパノプティカル3Dシーンを再現する2つの問題に対処する,Occupancy-aware Lifting を用いたボトムアップフレームワーク BUOL を提案する。
ボトムアップフレームワークは、任意のインスタンスid代入ではなく、決定論的意味的代入に基づく3dボクセルに2d情報を持ち上げる。
予測された2Dインスタンスセンターによると、3Dボクセルは洗練され、3Dインスタンスにグループ化される。
voxel-restruction ambiguityでは、推定されたマルチプレーン占有率と深さを併用して、物や物の領域全体を埋める。
提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
コードとモデルはhttps://github.com/chtsy/buolで入手できる。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting [28.709044035867596]
本稿では,DFA3Dと呼ばれる2D-to-3D機能リフトのための新しい演算子を提案する。
DFA3Dは、多視点2D画像の特徴を3Dオブジェクト検出のための統一された3D空間に変換する。
論文 参考訳(メタデータ) (2023-07-24T17:49:11Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z) - Curiosity-driven 3D Scene Structure from Single-image Self-supervision [22.527696847086574]
これまでの研究は、孤立した3Dオブジェクトを2Dのみの自己スーパービジョンから学習することを実証してきた。
ここでは、複数のオブジェクトで構成された3Dシーン全体(位置、向き、型など)に拡張することにしました。
得られたシステムは、異なる仮想または実画像の2D画像を完全な3Dシーンに変換し、それらのシーンの2D画像からのみ学習する。
論文 参考訳(メタデータ) (2020-12-02T14:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。