論文の概要: A Study on the Generality of Neural Network Structures for Monocular
Depth Estimation
- arxiv url: http://arxiv.org/abs/2301.03169v3
- Date: Sun, 10 Dec 2023 23:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:53:10.748179
- Title: A Study on the Generality of Neural Network Structures for Monocular
Depth Estimation
- Title(参考訳): 単眼深度推定のためのニューラルネットワーク構造の一般性に関する研究
- Authors: Jinwoo Bae and Kyumin Hwang and Sunghoon Im
- Abstract要約: 分子深度推定の一般化に向けて,様々なバックボーンネットワークを深く研究する。
我々は、分布内と分布外の両方のデータセット上で、最先端のモデルを評価する。
我々はトランスフォーマーがCNNよりも強い形状バイアスを示すのを観察した。
- 参考スコア(独自算出の注目度): 14.09373215954704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation has been widely studied, and significant
improvements in performance have been recently reported. However, most previous
works are evaluated on a few benchmark datasets, such as KITTI datasets, and
none of the works provide an in-depth analysis of the generalization
performance of monocular depth estimation. In this paper, we deeply investigate
the various backbone networks (e.g.CNN and Transformer models) toward the
generalization of monocular depth estimation. First, we evaluate
state-of-the-art models on both in-distribution and out-of-distribution
datasets, which have never been seen during network training. Then, we
investigate the internal properties of the representations from the
intermediate layers of CNN-/Transformer-based models using synthetic
texture-shifted datasets. Through extensive experiments, we observe that the
Transformers exhibit a strong shape-bias rather than CNNs, which have a strong
texture-bias. We also discover that texture-biased models exhibit worse
generalization performance for monocular depth estimation than shape-biased
models. We demonstrate that similar aspects are observed in real-world driving
datasets captured under diverse environments. Lastly, we conduct a dense
ablation study with various backbone networks which are utilized in modern
strategies. The experiments demonstrate that the intrinsic locality of the CNNs
and the self-attention of the Transformers induce texture-bias and shape-bias,
respectively.
- Abstract(参考訳): 単眼深度推定は広く研究されており、近年は性能が大幅に向上している。
しかしながら、KITTIデータセットのようないくつかのベンチマークデータセットで以前の研究が評価されており、いずれの論文も単眼深度推定の一般化性能の詳細な分析を提供していない。
本稿では,単眼深度推定の一般化に向けて,様々なバックボーンネットワーク(cnnやトランスフォーマモデルなど)について深く検討する。
まず,ネットワークトレーニング中に一度も見られなかった分布内および分布外両方のモデルを評価する。
次に,合成テクスチャシフトデータセットを用いて,cnn/トランスフォーマモデル中間層からの表現の内部特性について検討する。
広範な実験により,トランスフォーマーは強いテクスチャバイアスを持つCNNよりも強い形状バイアスを示すことが明らかとなった。
また,テクスチャバイアスモデルでは,形状バイアスモデルよりも単眼深度推定の一般化性能が劣ることがわかった。
我々は、様々な環境下でキャプチャされた実世界の運転データセットで、同様の側面が観察されることを示した。
最後に,現代の戦略に活用される各種バックボーンネットワークを用いた高密度アブレーション研究を行った。
実験により, cnnの固有局所性とトランスフォーマーの自己付着がテクスチャバイアスと形状バイアスをそれぞれ引き起こすことが示された。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - Impacts of Color and Texture Distortions on Earth Observation Data in Deep Learning [5.128534415575421]
土地被覆分類と変化検出はリモートセンシングと地球観測の重要な応用である。
入力EOデータの異なる視覚特性がモデルの予測に与える影響はよく分かっていない。
ランドカバー分類のための複数の最先端セグメンテーションネットワークを用いて実験を行い、色歪みよりも一般的にテクスチャに敏感であることを示す。
論文 参考訳(メタデータ) (2024-03-07T10:25:23Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Deep Digging into the Generalization of Self-Supervised Monocular Depth
Estimation [12.336888210144936]
近年,自己監督型単分子深度推定法が広く研究されている。
単眼深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。
論文 参考訳(メタデータ) (2022-05-23T06:56:25Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。