論文の概要: DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2203.14211v1
- Date: Sun, 27 Mar 2022 05:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 22:01:52.641140
- Title: DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation
- Title(参考訳): DepthFormer: 正確な単眼深度推定のための長距離相関と局所情報の爆発
- Authors: Zhenyu Li, Zehui Chen, Xianming Liu, Junjun Jiang
- Abstract要約: 高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
- 参考スコア(独自算出の注目度): 50.08080424613603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to address the problem of supervised monocular depth
estimation. We start with a meticulous pilot study to demonstrate that the
long-range correlation is essential for accurate depth estimation. Therefore,
we propose to leverage the Transformer to model this global context with an
effective attention mechanism. We also adopt an additional convolution branch
to preserve the local information as the Transformer lacks the spatial
inductive bias in modeling such contents. However, independent branches lead to
a shortage of connections between features. To bridge this gap, we design a
hierarchical aggregation and heterogeneous interaction module to enhance the
Transformer features via element-wise interaction and model the affinity
between the Transformer and the CNN features in a set-to-set translation
manner. Due to the unbearable memory cost caused by global attention on
high-resolution feature maps, we introduce the deformable scheme to reduce the
complexity. Extensive experiments on the KITTI, NYU, and SUN RGB-D datasets
demonstrate that our proposed model, termed DepthFormer, surpasses
state-of-the-art monocular depth estimation methods with prominent margins.
Notably, it achieves the most competitive result on the highly competitive
KITTI depth estimation benchmark. Our codes and models are available at
https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox.
- Abstract(参考訳): 本稿では,教師付き単眼深度推定の問題に対処することを目的とする。
まず、精密な深度推定には長距離相関が不可欠であることを示すため、綿密なパイロット実験から始める。
そこで本研究では,このグローバルコンテキストを効果的な注意機構でモデル化するトランスフォーマを提案する。
また,変換器の空間的帰納バイアスが欠如しているため,局所的な情報を保存するために,新たな畳み込み分岐も導入する。
しかし、独立したブランチは機能間の接続不足につながる。
このギャップを埋めるために,階層的なアグリゲーションと不均質なインタラクションモジュールを設計し,要素間インタラクションによるトランスフォーマー機能を強化し,トランスフォーマとcnnの機能間の親和性をセット・ツー・セットの翻訳方法でモデル化する。
高精細度特徴マップのグローバルな注目によるメモリコストの低下により,複雑性を低減するための変形可能なスキームが導入された。
KITTI,NYU,SUN RGB-Dデータセットの大規模な実験により,提案したモデルであるDepthFormerが,最先端のモノクル深度推定法をはるかに上回っていることが示された。
特に、競争の激しいkitti深度推定ベンチマークにおいて、最も競争力のある結果が得られる。
私たちのコードとモデルはhttps://github.com/zhyever/monocular-depth-estimation-toolboxで利用可能です。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。