論文の概要: PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image
- arxiv url: http://arxiv.org/abs/2110.11219v1
- Date: Thu, 21 Oct 2021 15:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 22:25:31.043564
- Title: PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image
- Title(参考訳): planerecnet:単一rgb画像からの分割平面検出と再構成のためのクロスタスク一貫性を備えたマルチタスク学習
- Authors: Yaxu Xie, Fangwen Shu, Jason Rambach, Alain Pagani, Didier Stricker
- Abstract要約: ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
- 参考スコア(独自算出の注目度): 11.215334675788952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Piece-wise 3D planar reconstruction provides holistic scene understanding of
man-made environments, especially for indoor scenarios. Most recent approaches
focused on improving the segmentation and reconstruction results by introducing
advanced network architectures but overlooked the dual characteristics of
piece-wise planes as objects and geometric models. Different from other
existing approaches, we start from enforcing cross-task consistency for our
multi-task convolutional neural network, PlaneRecNet, which integrates a
single-stage instance segmentation network for piece-wise planar segmentation
and a depth decoder to reconstruct the scene from a single RGB image. To
achieve this, we introduce several novel loss functions (geometric constraint)
that jointly improve the accuracy of piece-wise planar segmentation and depth
estimation. Meanwhile, a novel Plane Prior Attention module is used to guide
depth estimation with the awareness of plane instances. Exhaustive experiments
are conducted in this work to validate the effectiveness and efficiency of our
method.
- Abstract(参考訳): 部分的な3次元平面再構成は、特に屋内シナリオにおいて、人工環境の全体的理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入してセグメント化と再構築結果の改善に重点を置いているが、オブジェクトや幾何学モデルとしてのピースワイド平面の二重特性を見落としている。
他の既存のアプローチとは異なり、私たちはマルチタスク畳み込みニューラルネットワークであるplanerecnetに対して、クロスタスク一貫性を強制することから始めます。planerecnetは、1つのrgbイメージからシーンを再構築するために、1段階のインスタンスセグメンテーションネットワークと深さデコーダを統合しています。
そこで本研究では,平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を提案する。
一方、新しいPlane Prior Attentionモジュールは、平面インスタンスの認識による深さ推定をガイドするために使用される。
本研究は,本手法の有効性と有効性を検証するための実験である。
関連論文リスト
- Plane2Depth: Hierarchical Adaptive Plane Guidance for Monocular Depth Estimation [38.81275292687583]
平面情報を適応的に利用し,階層的なフレームワーク内での深度予測を改善するPlane2Depthを提案する。
提案する平面案内深度発生器 (PGDG) では, 現場の平面をソフトにモデル化し, 画素ごとの平面係数を予測するためのプロトタイプとして, 一連の平面クエリを設計する。
提案するアダプティブプレーンクエリアグリゲーション(APGA)モジュールでは,マルチスケール平面特徴のアグリゲーションを改善するために,新たな機能インタラクションアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-04T07:45:06Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Multi-task Planar Reconstruction with Feature Warping Guidance [3.95944314850151]
ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。
本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。
本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
論文 参考訳(メタデータ) (2023-11-25T09:53:42Z) - X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T14:27:54Z) - PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation [10.982464344805194]
PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。
提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-25T18:28:19Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。