論文の概要: Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion
- arxiv url: http://arxiv.org/abs/2403.16376v1
- Date: Mon, 25 Mar 2024 02:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:17:05.305717
- Title: Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion
- Title(参考訳): Elite360D:Semantic- and Distance-Aware Bi-Projection Fusionによる高効率360度深度推定に向けて
- Authors: Hao Ai, Lin Wang,
- Abstract要約: 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。
最近のアプローチは、主に幾何学に基づく再射との相互射影融合に焦点を当てている。
本研究では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。
- 参考スコア(独自算出の注目度): 5.577935944665
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 360 depth estimation has recently received great attention for 3D reconstruction owing to its omnidirectional field of view (FoV). Recent approaches are predominantly focused on cross-projection fusion with geometry-based re-projection: they fuse 360 images with equirectangular projection (ERP) and another projection type, e.g., cubemap projection to estimate depth with the ERP format. However, these methods suffer from 1) limited local receptive fields, making it hardly possible to capture large FoV scenes, and 2) prohibitive computational cost, caused by the complex cross-projection fusion module design. In this paper, we propose Elite360D, a novel framework that inputs the ERP image and icosahedron projection (ICOSAP) point set, which is undistorted and spatially continuous. Elite360D is superior in its capacity in learning a representation from a local-with-global perspective. With a flexible ERP image encoder, it includes an ICOSAP point encoder, and a Bi-projection Bi-attention Fusion (B2F) module (totally ~1M parameters). Specifically, the ERP image encoder can take various perspective image-trained backbones (e.g., ResNet, Transformer) to extract local features. The point encoder extracts the global features from the ICOSAP. Then, the B2F module captures the semantic- and distance-aware dependencies between each pixel of the ERP feature and the entire ICOSAP feature set. Without specific backbone design and obvious computational cost increase, Elite360D outperforms the prior arts on several benchmark datasets.
- Abstract(参考訳): 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。
近年のアプローチは、幾何的再射を伴うクロスプロジェクション融合に主に焦点をあてており、等角射影(ERP)と他の射影型(例えば立方体射影)を融合してERPフォーマットで深さを推定している。
しかし、これらの方法は苦しむ。
1) 局所受容野が限られており、大規模なFoVシーンの撮影が困難である。
2)複雑な相互投射核融合モジュールの設計による計算コストの禁止。
本稿では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。
Elite360Dは、ローカル・ウィズ・グローバルの観点から表現を学ぶ能力において優れている。
柔軟なERPイメージエンコーダはICOSAPポイントエンコーダとバイジェクション・バイアテンション・フュージョン(B2F)モジュール(正確には1Mパラメータ)を備える。
具体的には、ERPイメージエンコーダは、様々な視点で訓練されたバックボーン(例えば、ResNet、Transformer)を使って局所的な特徴を抽出することができる。
ポイントエンコーダはICOSAPからグローバルな特徴を抽出する。
次に、B2FモジュールはERP機能の各ピクセルとICOSAP機能セット全体のセマンティックおよび距離認識依存関係をキャプチャする。
特定のバックボーン設計と明らかな計算コストの増加なしに、Elite360Dはいくつかのベンチマークデータセットで先行技術を上回っている。
関連論文リスト
- UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D
Representation for 3D Perception in Autonomous Driving [51.37470133438836]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning
Holistic-with-Regional Depth Distributions [16.065889899404848]
我々は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーのポテンシャルを微妙に組み合わせた新しいフレームワーク、textbfHRDFuseを提案する。
本手法は, SOTA法よりもスムーズで精度の高い結果が得られる一方で,スムーズで正確な深度を予測できる。
論文 参考訳(メタデータ) (2023-03-21T06:26:18Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360
Depth Estimation [59.11106101006008]
両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。
そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
論文 参考訳(メタデータ) (2022-09-07T06:24:21Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Distortion-Aware Self-Supervised 360{\deg} Depth Estimation from A
Single Equirectangular Projection Image [35.943763515381214]
本稿では,オープン環境下での単一360度画像深度予測のための新しい手法を提案する。
ひとつは、監視データセットの制限 - 現在利用可能なデータセットは、屋内シーンに限られている。
もうひとつは、座標と歪みを持つ360deg画像に一般的に使用される等角射影フォーマット(ERP)による問題である。
論文 参考訳(メタデータ) (2022-04-03T08:28:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文 参考訳(メタデータ) (2021-03-09T19:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。