論文の概要: OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
- arxiv url: http://arxiv.org/abs/2203.00838v1
- Date: Wed, 2 Mar 2022 03:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 05:57:57.867480
- Title: OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
- Title(参考訳): OmniFusion:Geometry-Aware Fusionによる360度単眼深度推定
- Authors: Yuyan Li, Yuliang Guo, Zhixin Yan, Xinyu Huang, Ye Duan, Liu Ren
- Abstract要約: 球面歪み問題に対処するため,360度単分子深度推定パイプライン,textit OmniFusionを提案する。
我々のパイプラインは、360度画像を歪みの少ない視点パッチ(すなわち、タンジェント画像)に変換して、CNNを介してパッチワイズ予測を取得し、最終的な出力のためにパッチワイズ結果をマージする。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.058261716065381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A well-known challenge in applying deep-learning methods to omnidirectional
images is spherical distortion. In dense regression tasks such as depth
estimation, where structural details are required, using a vanilla CNN layer on
the distorted 360 image results in undesired information loss. In this paper,
we propose a 360 monocular depth estimation pipeline, \textit{OmniFusion}, to
tackle the spherical distortion issue. Our pipeline transforms a 360 image into
less-distorted perspective patches (i.e. tangent images) to obtain patch-wise
predictions via CNN, and then merge the patch-wise results for final output. To
handle the discrepancy between patch-wise predictions which is a major issue
affecting the merging quality, we propose a new framework with the following
key components. First, we propose a geometry-aware feature fusion mechanism
that combines 3D geometric features with 2D image features to compensate for
the patch-wise discrepancy. Second, we employ the self-attention-based
transformer architecture to conduct a global aggregation of patch-wise
information, which further improves the consistency. Last, we introduce an
iterative depth refinement mechanism, to further refine the estimated depth
based on the more accurate geometric features. Experiments show that our method
greatly mitigates the distortion issue, and achieves state-of-the-art
performances on several 360 monocular depth estimation benchmark datasets.
- Abstract(参考訳): 全方位画像に深層学習を適用することの課題は球面歪みである。
構造の詳細が必要な深度推定などの高密度回帰タスクでは、歪んだ360度画像上のバニラCNN層を用いることで、望ましくない情報損失が生じる。
本稿では,球面歪み問題に対処するために,360度単眼深度推定パイプライン \textit{omnifusion} を提案する。
当社のパイプラインでは,360度イメージを不規則なパースペクティブパッチ(タンジェントイメージ)に変換して,cnnによるパッチワイズ予測を取得し,最終出力としてパッチワイズ結果をマージする。
マージ品質に影響を及ぼす主要な問題であるパッチワイズ予測の相違に対処するため,以下のキーコンポーネントを備えた新しいフレームワークを提案する。
まず, 3次元幾何学的特徴と2次元画像特徴を組み合わせることで, パッチ方向の不一致を補償する幾何認識特徴融合機構を提案する。
第2に,自己着脱型トランスフォーマーアーキテクチャを用いてパッチ毎の情報をグローバルに集約することにより,一貫性をさらに向上させる。
最後に,より正確な幾何学的特徴に基づいて,推定深度をさらに精錬する反復的深さ精細化機構を導入する。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。
360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-04-11T11:11:43Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - Graph-Based Depth Denoising & Dequantization for Point Cloud Enhancement [47.61748619439693]
3Dポイントの雲は通常、センサーが1つ以上の視点で取得した深さの測定から構築される。
以前の作業では、不完全な深度データを3D空間に投影した後、点雲テクティタ後部をノイズ化する。
本研究では,3次元点雲の合成に先立って,検出画像のテクスタイタ事前に直接深度測定を施す。
論文 参考訳(メタデータ) (2021-11-09T04:17:35Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。