論文の概要: Deep Digging into the Generalization of Self-Supervised Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2205.11083v3
- Date: Mon, 20 Mar 2023 03:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:27:24.316613
- Title: Deep Digging into the Generalization of Self-Supervised Monocular Depth
Estimation
- Title(参考訳): 自己監督型単眼深度推定の一般化への深い取り組み
- Authors: Jinwoo Bae, Sungho Moon, Sunghoon Im
- Abstract要約: 近年,自己監督型単分子深度推定法が広く研究されている。
単眼深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。
- 参考スコア(独自算出の注目度): 12.336888210144936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation has been widely studied recently.
Most of the work has focused on improving performance on benchmark datasets,
such as KITTI, but has offered a few experiments on generalization performance.
In this paper, we investigate the backbone networks (e.g. CNNs, Transformers,
and CNN-Transformer hybrid models) toward the generalization of monocular depth
estimation. We first evaluate state-of-the-art models on diverse public
datasets, which have never been seen during the network training. Next, we
investigate the effects of texture-biased and shape-biased representations
using the various texture-shifted datasets that we generated. We observe that
Transformers exhibit a strong shape bias and CNNs do a strong texture-bias. We
also find that shape-biased models show better generalization performance for
monocular depth estimation compared to texture-biased models. Based on these
observations, we newly design a CNN-Transformer hybrid network with a
multi-level adaptive feature fusion module, called MonoFormer. The design
intuition behind MonoFormer is to increase shape bias by employing Transformers
while compensating for the weak locality bias of Transformers by adaptively
fusing multi-level representations. Extensive experiments show that the
proposed method achieves state-of-the-art performance with various public
datasets. Our method also shows the best generalization ability among the
competitive methods.
- Abstract(参考訳): 近年,自己教師付き単眼深度推定法が広く研究されている。
研究の大部分は、KITTIなどのベンチマークデータセットのパフォーマンス向上に重点を置いているが、一般化性能に関するいくつかの実験を提供している。
本稿では, 単分子深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。
我々はまず、ネットワークトレーニング中に見たことのない様々な公開データセットの最先端モデルを評価する。
次に,我々が生成した各種テクスチャシフトデータセットを用いて,テクスチャ偏差表現と形状偏差表現の効果について検討する。
我々はトランスフォーマーが強い形状バイアスを示し、cnnが強いテクスチャバイアスを示すことを観察する。
また, 形状バイアスモデルでは, テクスチャバイアスモデルと比較して, 単眼深度推定の一般化性能がよいことがわかった。
これらの観測に基づいて,多レベル適応機能融合モジュールによるcnn-transformerハイブリッドネットワークを新たに設計した。
MonoFormerの背景にある設計直感は、多レベル表現を適応的に融合することでトランスフォーマーの弱い局所性バイアスを補償しながら、トランスフォーマーを採用することで形状バイアスを増加させることである。
大規模な実験により,提案手法は様々な公開データセットを用いて最先端の性能を実現する。
また,本手法は競合手法の中で最適の一般化能力を示す。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - A Study on the Generality of Neural Network Structures for Monocular
Depth Estimation [14.09373215954704]
分子深度推定の一般化に向けて,様々なバックボーンネットワークを深く研究する。
我々は、分布内と分布外の両方のデータセット上で、最先端のモデルを評価する。
我々はトランスフォーマーがCNNよりも強い形状バイアスを示すのを観察した。
論文 参考訳(メタデータ) (2023-01-09T04:58:12Z) - MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer [52.0699787446221]
自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
論文 参考訳(メタデータ) (2022-08-06T16:54:45Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。