論文の概要: OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
- arxiv url: http://arxiv.org/abs/2203.00838v1
- Date: Wed, 2 Mar 2022 03:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 05:57:57.867480
- Title: OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
- Title(参考訳): OmniFusion:Geometry-Aware Fusionによる360度単眼深度推定
- Authors: Yuyan Li, Yuliang Guo, Zhixin Yan, Xinyu Huang, Ye Duan, Liu Ren
- Abstract要約: 球面歪み問題に対処するため,360度単分子深度推定パイプライン,textit OmniFusionを提案する。
我々のパイプラインは、360度画像を歪みの少ない視点パッチ(すなわち、タンジェント画像)に変換して、CNNを介してパッチワイズ予測を取得し、最終的な出力のためにパッチワイズ結果をマージする。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.058261716065381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A well-known challenge in applying deep-learning methods to omnidirectional
images is spherical distortion. In dense regression tasks such as depth
estimation, where structural details are required, using a vanilla CNN layer on
the distorted 360 image results in undesired information loss. In this paper,
we propose a 360 monocular depth estimation pipeline, \textit{OmniFusion}, to
tackle the spherical distortion issue. Our pipeline transforms a 360 image into
less-distorted perspective patches (i.e. tangent images) to obtain patch-wise
predictions via CNN, and then merge the patch-wise results for final output. To
handle the discrepancy between patch-wise predictions which is a major issue
affecting the merging quality, we propose a new framework with the following
key components. First, we propose a geometry-aware feature fusion mechanism
that combines 3D geometric features with 2D image features to compensate for
the patch-wise discrepancy. Second, we employ the self-attention-based
transformer architecture to conduct a global aggregation of patch-wise
information, which further improves the consistency. Last, we introduce an
iterative depth refinement mechanism, to further refine the estimated depth
based on the more accurate geometric features. Experiments show that our method
greatly mitigates the distortion issue, and achieves state-of-the-art
performances on several 360 monocular depth estimation benchmark datasets.
- Abstract(参考訳): 全方位画像に深層学習を適用することの課題は球面歪みである。
構造の詳細が必要な深度推定などの高密度回帰タスクでは、歪んだ360度画像上のバニラCNN層を用いることで、望ましくない情報損失が生じる。
本稿では,球面歪み問題に対処するために,360度単眼深度推定パイプライン \textit{omnifusion} を提案する。
当社のパイプラインでは,360度イメージを不規則なパースペクティブパッチ(タンジェントイメージ)に変換して,cnnによるパッチワイズ予測を取得し,最終出力としてパッチワイズ結果をマージする。
マージ品質に影響を及ぼす主要な問題であるパッチワイズ予測の相違に対処するため,以下のキーコンポーネントを備えた新しいフレームワークを提案する。
まず, 3次元幾何学的特徴と2次元画像特徴を組み合わせることで, パッチ方向の不一致を補償する幾何認識特徴融合機構を提案する。
第2に,自己着脱型トランスフォーマーアーキテクチャを用いてパッチ毎の情報をグローバルに集約することにより,一貫性をさらに向上させる。
最後に,より正確な幾何学的特徴に基づいて,推定深度をさらに精錬する反復的深さ精細化機構を導入する。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
関連論文リスト
- RDG-GS: Relative Depth Guidance with Gaussian Splatting for Real-time Sparse-View 3D Rendering [13.684624443214599]
本稿では,3次元ガウススプラッティングに基づく相対深度誘導を用いた新しいスパースビュー3DレンダリングフレームワークRDG-GSを提案する。
中心となる革新は、相対的な深度誘導を利用してガウス場を洗練させ、ビュー一貫性のある空間幾何学的表現に向けてそれを操ることである。
Mip-NeRF360, LLFF, DTU, Blenderに関する広範な実験を通じて、RDG-GSは最先端のレンダリング品質と効率を実証している。
論文 参考訳(メタデータ) (2025-01-19T16:22:28Z) - MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z) - Revisiting 360 Depth Estimation with PanoGabor: A New Fusion Perspective [89.53522682640337]
本稿では,これらの課題に対処するため,指向性歪みを考慮したGabor Fusionフレームワーク(PGFuse)を提案する。
再帰的歪みに対処するために、線形緯度対応の歪み表現法を設計し、カスタマイズされた歪み対応ガボルフィルタを生成する。
ガボル変換の配向感度を考慮すると、この感度を安定させるために球面勾配制約を導入する。
論文 参考訳(メタデータ) (2024-08-29T02:58:35Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文 参考訳(メタデータ) (2022-09-14T00:08:44Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - Graph-Based Depth Denoising & Dequantization for Point Cloud Enhancement [47.61748619439693]
3Dポイントの雲は通常、センサーが1つ以上の視点で取得した深さの測定から構築される。
以前の作業では、不完全な深度データを3D空間に投影した後、点雲テクティタ後部をノイズ化する。
本研究では,3次元点雲の合成に先立って,検出画像のテクスタイタ事前に直接深度測定を施す。
論文 参考訳(メタデータ) (2021-11-09T04:17:35Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。