論文の概要: Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion
- arxiv url: http://arxiv.org/abs/2403.16376v2
- Date: Sat, 25 May 2024 05:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:16:48.640284
- Title: Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion
- Title(参考訳): Elite360D:Semantic- and Distance-Aware Bi-Projection Fusionによる高効率360度深度推定に向けて
- Authors: Hao Ai, Lin Wang,
- Abstract要約: 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。
最近のアプローチは、主に幾何学に基づく再射との相互射影融合に焦点を当てている。
本研究では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。
- 参考スコア(独自算出の注目度): 5.577935944665
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 360 depth estimation has recently received great attention for 3D reconstruction owing to its omnidirectional field of view (FoV). Recent approaches are predominantly focused on cross-projection fusion with geometry-based re-projection: they fuse 360 images with equirectangular projection (ERP) and another projection type, e.g., cubemap projection to estimate depth with the ERP format. However, these methods suffer from 1) limited local receptive fields, making it hardly possible to capture large FoV scenes, and 2) prohibitive computational cost, caused by the complex cross-projection fusion module design. In this paper, we propose Elite360D, a novel framework that inputs the ERP image and icosahedron projection (ICOSAP) point set, which is undistorted and spatially continuous. Elite360D is superior in its capacity in learning a representation from a local-with-global perspective. With a flexible ERP image encoder, it includes an ICOSAP point encoder, and a Bi-projection Bi-attention Fusion (B2F) module (totally ~1M parameters). Specifically, the ERP image encoder can take various perspective image-trained backbones (e.g., ResNet, Transformer) to extract local features. The point encoder extracts the global features from the ICOSAP. Then, the B2F module captures the semantic- and distance-aware dependencies between each pixel of the ERP feature and the entire ICOSAP feature set. Without specific backbone design and obvious computational cost increase, Elite360D outperforms the prior arts on several benchmark datasets.
- Abstract(参考訳): 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。
近年のアプローチは、幾何的再射を伴うクロスプロジェクション融合に主に焦点をあてており、等角射影(ERP)と他の射影型(例えば立方体射影)を融合してERPフォーマットで深さを推定している。
しかし、これらの方法は苦しむ。
1) 局所受容野が限られており、大規模なFoVシーンの撮影が困難である。
2)複雑な相互投射核融合モジュールの設計による計算コストの禁止。
本稿では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。
Elite360Dは、ローカル・ウィズ・グローバルの観点から表現を学ぶ能力において優れている。
柔軟なERPイメージエンコーダはICOSAPポイントエンコーダとバイジェクション・バイアテンション・フュージョン(B2F)モジュール(正確には1Mパラメータ)を備える。
具体的には、ERPイメージエンコーダは、様々な視点で訓練されたバックボーン(例えば、ResNet、Transformer)を使って局所的な特徴を抽出することができる。
ポイントエンコーダはICOSAPからグローバルな特徴を抽出する。
次に、B2FモジュールはERP機能の各ピクセルとICOSAP機能セット全体のセマンティックおよび距離認識依存関係をキャプチャする。
特定のバックボーン設計と明らかな計算コストの増加なしに、Elite360Dはいくつかのベンチマークデータセットで先行技術を上回っている。
関連論文リスト
- Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration [5.577935944665]
360度カメラは周囲の環境全体をFoVで捉え、3D構造を直接推測するための総合的な視覚情報を表示する。
既存の作品は、主に1つのタスクに特化しており、3次元幾何学と意味論のマルチタスク学習はほとんど探索されていない。
本研究では,深度と表面の正規推定による3次元構造推定とセマンティックセグメンテーションによるセマンティックスを同時に行うことができる,新しいエンドツーエンドマルチタスク学習フレームワークElite360Mを提案する。
論文 参考訳(メタデータ) (2024-08-18T02:33:45Z) - Open Panoramic Segmentation [34.46596562350091]
我々は,FoV制限されたピンホール画像をオープン語彙設定でトレーニングする,Open Panoramic (OPS) と呼ばれる新しいタスクを提案する。
また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。
他の最先端のオープンボキャブラリセマンティックセマンティクスアプローチを超越すると、3つのパノラマデータセットのパフォーマンスが著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T22:00:32Z) - Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning
Holistic-with-Regional Depth Distributions [16.065889899404848]
我々は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーのポテンシャルを微妙に組み合わせた新しいフレームワーク、textbfHRDFuseを提案する。
本手法は, SOTA法よりもスムーズで精度の高い結果が得られる一方で,スムーズで正確な深度を予測できる。
論文 参考訳(メタデータ) (2023-03-21T06:26:18Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation [59.11106101006008]
両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
論文 参考訳(メタデータ) (2022-09-07T06:24:21Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。