論文の概要: Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention
- arxiv url: http://arxiv.org/abs/2210.09071v1
- Date: Mon, 17 Oct 2022 13:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:45:40.886494
- Title: Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention
- Title(参考訳): あらゆる場所で注意:スキップ注意を伴う単眼深度予測
- Authors: Ashutosh Agarwal and Chetan Arora
- Abstract要約: 単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。
コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
- 参考スコア(独自算出の注目度): 6.491470878214977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular Depth Estimation (MDE) aims to predict pixel-wise depth given a
single RGB image. For both, the convolutional as well as the recent
attention-based models, encoder-decoder-based architectures have been found to
be useful due to the simultaneous requirement of global context and pixel-level
resolution. Typically, a skip connection module is used to fuse the encoder and
decoder features, which comprises of feature map concatenation followed by a
convolution operation. Inspired by the demonstrated benefits of attention in a
multitude of computer vision problems, we propose an attention-based fusion of
encoder and decoder features. We pose MDE as a pixel query refinement problem,
where coarsest-level encoder features are used to initialize pixel-level
queries, which are then refined to higher resolutions by the proposed Skip
Attention Module (SAM). We formulate the prediction problem as ordinal
regression over the bin centers that discretize the continuous depth range and
introduce a Bin Center Predictor (BCP) module that predicts bins at the
coarsest level using pixel queries. Apart from the benefit of image adaptive
depth binning, the proposed design helps learn improved depth embedding in
initial pixel queries via direct supervision from the ground truth. Extensive
experiments on the two canonical datasets, NYUV2 and KITTI, show that our
architecture outperforms the state-of-the-art by 5.3% and 3.9%, respectively,
along with an improved generalization performance by 9.4% on the SUNRGBD
dataset. Code is available at https://github.com/ashutosh1807/PixelFormer.git.
- Abstract(参考訳): 単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的とする。
畳み込みモデルと最近の注目モデルの両方では、グローバルコンテキストとピクセルレベルの解像度の同時要求のため、エンコーダデコーダベースのアーキテクチャが有用であることが判明した。
通常、スキップ接続モジュールはエンコーダとデコーダの機能を融合するために使用される。
多数のコンピュータビジョン問題における注意力の利点に着想を得て,エンコーダとデコーダの特徴の融合を注意力ベースで提案する。
我々は、MDEを画素クエリ改善問題として、粗いレベルのエンコーダ機能を用いてピクセルレベルのクエリを初期化し、提案したSkip Attention Module (SAM)により高解像度に洗練する。
連続深度範囲を離散化するビン中心上の順序回帰として予測問題を定式化し、画素クエリを用いてビンを最も粗いレベルで予測するビン中心予測器(BCP)モジュールを導入する。
画像適応的な深度ビンニングの利点とは別に,提案設計は,地上の真理から直接監督することで,初期画素クエリへの深度埋め込みを改善することを支援する。
2つの標準データセットであるNYUV2とKITTIの大規模な実験により、我々のアーキテクチャは、SUNRGBDデータセットの9.4%の改善とともに、それぞれ最先端の5.3%と3.9%を上回っていることが示された。
コードはhttps://github.com/ashutosh1807/PixelFormer.gitで入手できる。
関連論文リスト
- Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion
Network for Depth Completion [3.8558637038709622]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - PointHR: Exploring High-Resolution Architectures for 3D Point Cloud
Segmentation [77.44144260601182]
3Dポイントクラウドセグメンテーションのための高分解能アーキテクチャについて検討する。
我々は、特徴抽出のためのknnベースのシーケンス演算子と差分再サンプリング演算子を含む、PointHRという名前の統一パイプラインを提案する。
S3DISとScanNetV2データセットを用いて,これらのアーキテクチャを高密度点雲解析のために評価する。
論文 参考訳(メタデータ) (2023-10-11T09:29:17Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image [7.753378095194288]
ビジョンベースのアプローチは最近多くの注目を集めており、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
我々の新しいアプローチは、最小限のオーバーヘッドで現在の画像の焦点を見つけることができ、奥行き特性の損失を避けることができる。
論文 参考訳(メタデータ) (2022-10-24T23:01:25Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Pixel-Perfect Structure-from-Motion with Featuremetric Refinement [96.73365545609191]
複数視点からの低レベル画像情報を直接アライメントすることで、動きからの2つの重要なステップを洗練する。
これにより、様々なキーポイント検出器のカメラポーズとシーン形状の精度が大幅に向上する。
本システムは,大規模な画像コレクションに容易にスケールできるので,クラウドソースによる大規模なローカライゼーションを実現することができる。
論文 参考訳(メタデータ) (2021-08-18T17:58:55Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - AdaBins: Depth Estimation using Adaptive Bins [43.07310038858445]
本稿では,画像毎の中心値が適応的に推定されるビンに深さ範囲を分割するトランスフォーマーアーキテクチャブロックを提案する。
以上の結果から,いくつかの一般的な深度データセットの最先端性に対する決定的な改善が得られた。
論文 参考訳(メタデータ) (2020-11-28T14:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。