論文の概要: Bidirectional Attention Network for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2009.00743v2
- Date: Thu, 25 Mar 2021 18:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:55:08.141270
- Title: Bidirectional Attention Network for Monocular Depth Estimation
- Title(参考訳): 単眼深度推定のための双方向注意ネットワーク
- Authors: Shubhra Aich, Jean Marie Uwabeza Vianney, Md Amirul Islam, Mannat
Kaur, and Bingbing Liu
- Abstract要約: 双方向注意ネットワーク(BANet)は単眼深度推定(MDE)のためのエンドツーエンドフレームワークである
フィードフォワード機能マップを利用した双方向アテンションモジュールを導入し、グローバルコンテキストを組み込んであいまいさを除去する。
提案手法は,メモリと計算の複雑さを低減した,最先端の単分子深度推定法と同等以上の性能を示した。
- 参考スコア(独自算出の注目度): 18.381967717929264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Bidirectional Attention Network (BANet), an
end-to-end framework for monocular depth estimation (MDE) that addresses the
limitation of effectively integrating local and global information in
convolutional neural networks. The structure of this mechanism derives from a
strong conceptual foundation of neural machine translation, and presents a
light-weight mechanism for adaptive control of computation similar to the
dynamic nature of recurrent neural networks. We introduce bidirectional
attention modules that utilize the feed-forward feature maps and incorporate
the global context to filter out ambiguity. Extensive experiments reveal the
high degree of capability of this bidirectional attention model over
feed-forward baselines and other state-of-the-art methods for monocular depth
estimation on two challenging datasets -- KITTI and DIODE. We show that our
proposed approach either outperforms or performs at least on a par with the
state-of-the-art monocular depth estimation methods with less memory and
computational complexity.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワークにおける局所的および大域的情報を効果的に統合する限界に対処する,単眼深度推定(MDE)のエンドツーエンドフレームワークであるBANetを提案する。
このメカニズムの構造は、ニューラルマシン翻訳の強力な概念基盤から派生し、リカレントニューラルネットワークの動的性質に類似した計算の適応制御のための軽量なメカニズムを提供する。
フィードフォワード機能マップを利用した双方向アテンションモジュールを導入し、グローバルコンテキストを組み込んであいまいさを除去する。
広範囲な実験により、この双方向注意モデルがフィードフォワードベースラインや他の2つの挑戦的データセット(kittiとダイオード)の単眼深度推定のための最先端手法よりも高い能力を持つことが判明した。
提案手法は,メモリと計算の複雑さを低減した,最先端の単分子深度推定法と同等以上の性能を示した。
関連論文リスト
- Manydepth2: Motion-Aware Self-Supervised Multi-Frame Monocular Depth Estimation in Dynamic Scenes [45.092076587934464]
動的オブジェクトと静的背景の両方に対して正確な深度推定を実現するため,Marydepth2を提案する。
動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。
このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
論文 参考訳(メタデータ) (2023-12-23T14:36:27Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - EndoDepthL: Lightweight Endoscopic Monocular Depth Estimation with
CNN-Transformer [0.0]
我々は,CNNとTransformerを統合してマルチスケール深度マップを推定する,EndoDepthLという新しい軽量ソリューションを提案する。
提案手法は,ネットワークアーキテクチャの最適化,マルチスケール拡張畳み込み,マルチチャネルアテンション機構の導入を含む。
内視鏡画像における単眼深度推定の性能をよりよく評価するために,新しい複雑性評価指標を提案する。
論文 参考訳(メタデータ) (2023-08-04T21:38:29Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth [24.897377434844266]
単分子深度推定のための新しい構造とトレーニング戦略を提案する。
階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-01-19T06:37:21Z) - Fine-grained Semantics-aware Representation Enhancement for
Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。
我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。
提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-08-19T17:50:51Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。