論文の概要: OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
- arxiv url: http://arxiv.org/abs/2203.00838v1
- Date: Wed, 2 Mar 2022 03:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 05:57:57.867480
- Title: OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
- Title(参考訳): OmniFusion:Geometry-Aware Fusionによる360度単眼深度推定
- Authors: Yuyan Li, Yuliang Guo, Zhixin Yan, Xinyu Huang, Ye Duan, Liu Ren
- Abstract要約: 球面歪み問題に対処するため,360度単分子深度推定パイプライン,textit OmniFusionを提案する。
我々のパイプラインは、360度画像を歪みの少ない視点パッチ(すなわち、タンジェント画像)に変換して、CNNを介してパッチワイズ予測を取得し、最終的な出力のためにパッチワイズ結果をマージする。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.058261716065381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A well-known challenge in applying deep-learning methods to omnidirectional
images is spherical distortion. In dense regression tasks such as depth
estimation, where structural details are required, using a vanilla CNN layer on
the distorted 360 image results in undesired information loss. In this paper,
we propose a 360 monocular depth estimation pipeline, \textit{OmniFusion}, to
tackle the spherical distortion issue. Our pipeline transforms a 360 image into
less-distorted perspective patches (i.e. tangent images) to obtain patch-wise
predictions via CNN, and then merge the patch-wise results for final output. To
handle the discrepancy between patch-wise predictions which is a major issue
affecting the merging quality, we propose a new framework with the following
key components. First, we propose a geometry-aware feature fusion mechanism
that combines 3D geometric features with 2D image features to compensate for
the patch-wise discrepancy. Second, we employ the self-attention-based
transformer architecture to conduct a global aggregation of patch-wise
information, which further improves the consistency. Last, we introduce an
iterative depth refinement mechanism, to further refine the estimated depth
based on the more accurate geometric features. Experiments show that our method
greatly mitigates the distortion issue, and achieves state-of-the-art
performances on several 360 monocular depth estimation benchmark datasets.
- Abstract(参考訳): 全方位画像に深層学習を適用することの課題は球面歪みである。
構造の詳細が必要な深度推定などの高密度回帰タスクでは、歪んだ360度画像上のバニラCNN層を用いることで、望ましくない情報損失が生じる。
本稿では,球面歪み問題に対処するために,360度単眼深度推定パイプライン \textit{omnifusion} を提案する。
当社のパイプラインでは,360度イメージを不規則なパースペクティブパッチ(タンジェントイメージ)に変換して,cnnによるパッチワイズ予測を取得し,最終出力としてパッチワイズ結果をマージする。
マージ品質に影響を及ぼす主要な問題であるパッチワイズ予測の相違に対処するため,以下のキーコンポーネントを備えた新しいフレームワークを提案する。
まず, 3次元幾何学的特徴と2次元画像特徴を組み合わせることで, パッチ方向の不一致を補償する幾何認識特徴融合機構を提案する。
第2に,自己着脱型トランスフォーマーアーキテクチャを用いてパッチ毎の情報をグローバルに集約することにより,一貫性をさらに向上させる。
最後に,より正確な幾何学的特徴に基づいて,推定深度をさらに精錬する反復的深さ精細化機構を導入する。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
関連論文リスト
- MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - Graph-Based Depth Denoising & Dequantization for Point Cloud Enhancement [47.61748619439693]
3Dポイントの雲は通常、センサーが1つ以上の視点で取得した深さの測定から構築される。
以前の作業では、不完全な深度データを3D空間に投影した後、点雲テクティタ後部をノイズ化する。
本研究では,3次元点雲の合成に先立って,検出画像のテクスタイタ事前に直接深度測定を施す。
論文 参考訳(メタデータ) (2021-11-09T04:17:35Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。