論文の概要: Pyramid Feature Attention Network for Monocular Depth Prediction
- arxiv url: http://arxiv.org/abs/2403.01440v1
- Date: Sun, 3 Mar 2024 08:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:28:38.776716
- Title: Pyramid Feature Attention Network for Monocular Depth Prediction
- Title(参考訳): 単眼深度予測のためのピラミッド特徴注意ネットワーク
- Authors: Yifang Xu, Chenglei Peng, Ming Li, Yang Li, and Sidan Du
- Abstract要約: 本稿では,高レベルな文脈特徴と低レベルな空間特徴を改善するために,ピラミッド特徴注意ネットワーク(PFANet)を提案する。
提案手法は,KITTIデータセット上での最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 8.615717738037823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep convolutional neural networks (DCNNs) have achieved great success in
monocular depth estimation (MDE). However, few existing works take the
contributions for MDE of different levels feature maps into account, leading to
inaccurate spatial layout, ambiguous boundaries and discontinuous object
surface in the prediction. To better tackle these problems, we propose a
Pyramid Feature Attention Network (PFANet) to improve the high-level context
features and low-level spatial features. In the proposed PFANet, we design a
Dual-scale Channel Attention Module (DCAM) to employ channel attention in
different scales, which aggregate global context and local information from the
high-level feature maps. To exploit the spatial relationship of visual
features, we design a Spatial Pyramid Attention Module (SPAM) which can guide
the network attention to multi-scale detailed information in the low-level
feature maps. Finally, we introduce scale-invariant gradient loss to increase
the penalty on errors in depth-wise discontinuous regions. Experimental results
show that our method outperforms state-of-the-art methods on the KITTI dataset.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(dcnn)は単眼深度推定(mde)において大きな成功を収めている。
しかし、異なるレベルの特徴写像のMDEへの貢献を考慮に入れた既存の研究はほとんどなく、不正確な空間配置、曖昧な境界、不連続な物体表面が予測される。
そこで本研究では,高レベルな文脈特徴と低レベルな空間特徴を改善するために,ピラミッド型特徴注目ネットワーク (pfanet) を提案する。
提案するPFANetでは,高レベルの特徴マップからグローバルなコンテキストとローカル情報を集約する,異なるスケールのチャネルアテンションを利用するためのDual-scale Channel Attention Module (DCAM)を設計する。
視覚的特徴の空間的関係を生かして,低レベル特徴マップのマルチスケールの詳細情報にネットワークの注意を誘導する空間ピラミッド注意モジュール(SPAM)を設計する。
最後に,不連続領域の誤りに対するペナルティを高めるために,スケール不変勾配損失を導入する。
実験の結果,本手法はKITTIデータセットの最先端手法よりも優れていた。
関連論文リスト
- Multi-Scale Direction-Aware Network for Infrared Small Target Detection [2.661766509317245]
赤外小目標検出は、背景とターゲットを効果的に分離することが難しい問題に直面している。
我々は、赤外線小ターゲットの高周波方向特徴を統合するためのマルチスケール方向対応ネットワーク(MSDA-Net)を提案する。
MSDA-Netは、パブリックNUDT-SIRST、SIRST、IRSTD-1kデータセット上で、最先端(SOTA)結果を達成する。
論文 参考訳(メタデータ) (2024-06-04T07:23:09Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - DeepPointMap: Advancing LiDAR SLAM with Unified Neural Descriptors [17.664439455504592]
両面において優れた選好を実現する統一アーキテクチャであるDeepPointMapを提案する。
ニューラルネットワークを用いて、点群から非常に代表的でスパースな神経記述子を抽出する。
より挑戦的なマルチエージェント協調SLAMに拡張することで、私たちのフレームワークの汎用性を紹介します。
論文 参考訳(メタデータ) (2023-12-05T11:40:41Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Struct-MDC: Mesh-Refined Unsupervised Depth Completion Leveraging
Structural Regularities from Visual SLAM [1.8899300124593648]
特徴量に基づく視覚的同時位置決めとマッピング法(SLAM)は,抽出した特徴量の深さのみを推定する。
スパース深度から密集深度を推定する深度完了タスクは、探索のようなロボット応用において重要な役割を担っている。
この問題に対処するためのメッシュ深度改善(MDR)モジュールを提案する。
Struct-MDCは、公開およびカスタムデータセット上で、他の最先端アルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2022-04-29T04:29:17Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。