論文の概要: HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model
- arxiv url: http://arxiv.org/abs/2204.05007v1
- Date: Mon, 11 Apr 2022 11:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:52:39.975542
- Title: HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model
- Title(参考訳): HiMODE: ハイブリッド単分子全方位深さ推定モデル
- Authors: Masum Shah Junayed, Arezoo Sadeghzadeh, Md Baharul Islam, Lai-Kuan
Wong, Tarkan Aydin
- Abstract要約: HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。
360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 3.5290359800552946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular omnidirectional depth estimation is receiving considerable research
attention due to its broad applications for sensing 360{\deg} surroundings.
Existing approaches in this field suffer from limitations in recovering small
object details and data lost during the ground-truth depth map acquisition. In
this paper, a novel monocular omnidirectional depth estimation model, namely
HiMODE is proposed based on a hybrid CNN+Transformer (encoder-decoder)
architecture whose modules are efficiently designed to mitigate distortion and
computational cost, without performance degradation. Firstly, we design a
feature pyramid network based on the HNet block to extract high-resolution
features near the edges. The performance is further improved, benefiting from a
self and cross attention layer and spatial/temporal patches in the Transformer
encoder and decoder, respectively. Besides, a spatial residual block is
employed to reduce the number of parameters. By jointly passing the deep
features extracted from an input image at each backbone block, along with the
raw depth maps predicted by the transformer encoder-decoder, through a context
adjustment layer, our model can produce resulting depth maps with better visual
quality than the ground-truth. Comprehensive ablation studies demonstrate the
significance of each individual module. Extensive experiments conducted on
three datasets; Stanford3D, Matterport3D, and SunCG, demonstrate that HiMODE
can achieve state-of-the-art performance for 360{\deg} monocular depth
estimation.
- Abstract(参考訳): 360{\deg}周囲をセンシングする幅広い用途のために、単眼全方位深度推定が研究の注目を集めている。
この分野での既存のアプローチは、地上深度マップ取得時に失われた小さなオブジェクトの詳細とデータを復元する上での制限に苦しむ。
本稿では, モジュールを効率よく設計し, 歪みや計算コストを低減できるハイブリッドCNN+Transformer(エンコーダ・デコーダ)アーキテクチャに基づいて, 性能劣化を伴わずに, 単分子全方位深度推定モデル(HiMODE)を提案する。
まず,HNetブロックに基づく特徴ピラミッドネットワークを設計し,エッジ近傍の高解像度特徴を抽出する。
トランスエンコーダとデコーダの自己およびクロスアテンション層と空間的/時空間的パッチにより、さらに性能が向上する。
さらに、パラメータ数を減らすために空間的残差ブロックが使用される。
各バックボーンブロックの入力画像から抽出した深度特徴とトランスフォーマーエンコーダデコーダが予測した生深度マップとをコンテキスト調整層に連通することにより,本モデルにより,地上構造よりも視覚的品質の高い深度マップを作成できる。
包括的アブレーション研究は各モジュールの重要性を示している。
stanford3d、matterport3d、suncgの3つのデータセットに関する広範な実験により、ヒメデは360{\deg}単眼深度推定で最先端のパフォーマンスを達成できることが示されている。
関連論文リスト
- Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture [0.0]
本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
Inception-ResNet-v2モデルはエンコーダとして利用される。
NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。