論文の概要: PlanarRecon: Real-time 3D Plane Detection and Reconstruction from Posed
Monocular Videos
- arxiv url: http://arxiv.org/abs/2206.07710v1
- Date: Wed, 15 Jun 2022 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 15:18:56.576121
- Title: PlanarRecon: Real-time 3D Plane Detection and Reconstruction from Posed
Monocular Videos
- Title(参考訳): PlanarRecon: モノクロビデオからのリアルタイム3次元平面検出と再構成
- Authors: Yiming Xie, Matheus Gadelha, Fengting Yang, Xiaowei Zhou, Huaizu Jiang
- Abstract要約: PlanarReconは、提示されたモノクロビデオから3次元平面のグローバルなコヒーレントな検出と再構築のためのフレームワークである。
学習ベースのトラッキングと融合モジュールは、以前のフラグメントから平面をマージして、コヒーレントなグローバルな平面再構成を形成するように設計されている。
実験の結果,提案手法はリアルタイムでありながら,ScanNetデータセット上での最先端のパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 32.286637700503995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PlanarRecon -- a novel framework for globally coherent detection
and reconstruction of 3D planes from a posed monocular video. Unlike previous
works that detect planes in 2D from a single image, PlanarRecon incrementally
detects planes in 3D for each video fragment, which consists of a set of key
frames, from a volumetric representation of the scene using neural networks. A
learning-based tracking and fusion module is designed to merge planes from
previous fragments to form a coherent global plane reconstruction. Such design
allows PlanarRecon to integrate observations from multiple views within each
fragment and temporal information across different ones, resulting in an
accurate and coherent reconstruction of the scene abstraction with
low-polygonal geometry. Experiments show that the proposed approach achieves
state-of-the-art performances on the ScanNet dataset while being real-time.
- Abstract(参考訳): planarrecon - ポーズ付き単眼映像からの3次元平面のグローバルなコヒーレント検出と再構成のための新しいフレームワーク。
単一の画像から2Dの平面を検出する以前の研究とは異なり、PlanarReconはニューラルネットワークを使用してシーンのボリューム表現から、キーフレームのセットで構成されるビデオフラグメント毎に3Dの平面を段階的に検出する。
学習ベースのトラッキングと融合モジュールは、以前のフラグメントから平面をマージして、コヒーレントなグローバルな平面再構成を形成するように設計されている。
このような設計により、PlanarReconは、各フラグメント内の複数のビューからの観測と、異なるフラグメント間の時間的情報を統合することができ、結果として、低多角形幾何学によるシーン抽象の正確で一貫性のある再構築が実現される。
実験の結果,提案手法はリアルタイムにScanNetデータセット上での最先端のパフォーマンスを実現する。
関連論文リスト
- MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - PlaneMVS: 3D Plane Reconstruction from Multi-View Stereo [32.81496429134453]
カメラのポーズによる複数入力ビューからの3次元平面再構成のための新しいフレームワークPlainMVSを提案する。
対照的に、マルチビュー幾何学を利用するマルチビューステレオ(MVS)パイプラインで3次元平面を再構成する。
本手法は,学習面の先行性により,SOTA学習に基づくMVS手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-22T22:35:46Z) - PlaneTR: Structure-Guided Transformers for 3D Plane Recovery [56.23402171871664]
平面TRは1つの画像から同時に平面を検出し、再構成する。
PlaneTRはScanNetとNYUv2データセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-27T23:55:40Z) - SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and
3D Mesh Reconstruction from Video Data [124.2624568006391]
sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。
また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
論文 参考訳(メタデータ) (2021-05-18T15:42:37Z) - NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video [41.554961144321474]
本研究では,各ビデオフラグメントのTSDFボリュームに代表される局所曲面をニューラルネットワークで順次再構成することを提案する。
学習ベースのTSDF融合モジュールは、ネットワークが以前のフラグメントから機能をフューズするために使用される。
ScanNetと7-Scenesのデータセットの実験により、我々のシステムは精度と速度の両面で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-01T17:59:46Z) - Multi-Plane Program Induction with 3D Box Priors [110.6726150681556]
1つの画像からプログラムライクなシーン表現を推論するBox Program Injection (BPI)を提案する。
BPIは同時に、複数の2次元平面上の繰り返し構造、平面の3次元位置と向き、およびカメラパラメータをモデル化する。
ニューラルネットワークを使って、点の消滅やワイヤーフレーム線などの視覚的手がかりを推論し、検索ベースのアルゴリズムを誘導し、最もよく画像を説明するプログラムを見つける。
論文 参考訳(メタデータ) (2020-11-19T18:07:46Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。