論文の概要: Improving Depth Gradient Continuity in Transformers: A Comparative Study
on Monocular Depth Estimation with CNN
- arxiv url: http://arxiv.org/abs/2308.08333v2
- Date: Tue, 28 Nov 2023 02:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:24:50.771601
- Title: Improving Depth Gradient Continuity in Transformers: A Comparative Study
on Monocular Depth Estimation with CNN
- Title(参考訳): 変圧器の深さ勾配連続性の改善:CNNによる単眼深度推定の比較検討
- Authors: Jiawei Yao, Tong Wu, Xiaofeng Zhang
- Abstract要約: 我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
- 参考スコア(独自算出の注目度): 10.324064075491666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is an ongoing challenge in computer vision. Recent
progress with Transformer models has demonstrated notable advantages over
conventional CNNs in this area. However, there's still a gap in understanding
how these models prioritize different regions in 2D images and how these
regions affect depth estimation performance. To explore the differences between
Transformers and CNNs, we employ a sparse pixel approach to contrastively
analyze the distinctions between the two. Our findings suggest that while
Transformers excel in handling global context and intricate textures, they lag
behind CNNs in preserving depth gradient continuity. To further enhance the
performance of Transformer models in monocular depth estimation, we propose the
Depth Gradient Refinement (DGR) module that refines depth estimation through
high-order differentiation, feature fusion, and recalibration. Additionally, we
leverage optimal transport theory, treating depth maps as spatial probability
distributions, and employ the optimal transport distance as a loss function to
optimize our model. Experimental results demonstrate that models integrated
with the plug-and-play Depth Gradient Refinement (DGR) module and the proposed
loss function enhance performance without increasing complexity and
computational costs on both outdoor KITTI and indoor NYU-Depth-v2 datasets.
This research not only offers fresh insights into the distinctions between
Transformers and CNNs in depth estimation but also paves the way for novel
depth estimation methodologies.
- Abstract(参考訳): 単眼深度推定はコンピュータビジョンにおいて進行中の課題である。
最近のトランスフォーマーモデルの進歩は、この分野の従来のcnnよりも顕著な利点を示している。
しかし、これらのモデルが2次元画像の異なる領域を優先し、これらの領域が深さ推定性能にどのように影響するかを理解するには、まだギャップがある。
トランスフォーマーとcnnの違いを探るため,我々は,両者の区別を対比的に解析するために,疎画素法を適用した。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
単眼深度推定におけるトランスモデルの性能をさらに高めるために,高次微分,特徴融合,再校正により深さ推定を洗練する深さ勾配補正(dgr)モジュールを提案する。
さらに, 最適輸送理論を活用し, 深度写像を空間確率分布として扱い, 最適輸送距離を損失関数としてモデル最適化を行う。
実験により,プラグアンドプレイDGR(Depth Gradient Refinement)モジュールに統合されたモデルと,提案した損失関数により,屋外KITTIと屋内NYU-Depth-v2データセットの複雑さと計算コストを増大させることなく,性能が向上することを示した。
本研究は,トランスフォーマーとCNNの深度推定における区別に関する新たな知見を提供するだけでなく,新しい深度推定手法の道を開く。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。
これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:18:30Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。