論文の概要: DwinFormer: Dual Window Transformers for End-to-End Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2303.02968v2
- Date: Tue, 7 Mar 2023 05:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 11:50:57.164405
- Title: DwinFormer: Dual Window Transformers for End-to-End Monocular Depth
Estimation
- Title(参考訳): dwinformer : エンド・ツー・エンド単眼深度推定のためのデュアルウィンドウトランスフォーマ
- Authors: Md Awsafur Rahman and Shaikh Anowarul Fattah
- Abstract要約: 局所的特徴と大域的特徴の両方を終端単眼深度推定に用いたデュアルウインドウトランスフォーマーネットワークを提案する。
DwinFormerはデュアルウィンドウ自己アテンションとクロスアテンショントランスフォーマー、Dwin-SATとDwin-CATで構成されている。
NYU-Depth-V2データセットとKITTIデータセットの広範な実験により得られた実証的な証拠は、提案手法の優位性を示している。
- 参考スコア(独自算出の注目度): 0.5482532589225552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation from a single image is of paramount importance in the realm
of computer vision, with a multitude of applications. Conventional methods
suffer from the trade-off between consistency and fine-grained details due to
the local-receptive field limiting their practicality. This lack of long-range
dependency inherently comes from the convolutional neural network part of the
architecture. In this paper, a dual window transformer-based network, namely
DwinFormer, is proposed, which utilizes both local and global features for
end-to-end monocular depth estimation. The DwinFormer consists of dual window
self-attention and cross-attention transformers, Dwin-SAT and Dwin-CAT,
respectively. The Dwin-SAT seamlessly extracts intricate, locally aware
features while concurrently capturing global context. It harnesses the power of
local and global window attention to adeptly capture both short-range and
long-range dependencies, obviating the need for complex and computationally
expensive operations, such as attention masking or window shifting. Moreover,
Dwin-SAT introduces inductive biases which provide desirable properties, such
as translational equvariance and less dependence on large-scale data.
Furthermore, conventional decoding methods often rely on skip connections which
may result in semantic discrepancies and a lack of global context when fusing
encoder and decoder features. In contrast, the Dwin-CAT employs both local and
global window cross-attention to seamlessly fuse encoder and decoder features
with both fine-grained local and contextually aware global information,
effectively amending semantic gap. Empirical evidence obtained through
extensive experimentation on the NYU-Depth-V2 and KITTI datasets demonstrates
the superiority of the proposed method, consistently outperforming existing
approaches across both indoor and outdoor environments.
- Abstract(参考訳): 単一の画像からの深さ推定はコンピュータビジョンの領域において最重要であり、多くの応用がある。
従来の手法は、局所受容領域が実用性を制限するため、一貫性と細かな細部とのトレードオフに苦しむ。
この長距離依存の欠如は、本質的にアーキテクチャの畳み込みニューラルネットワーク部分に由来する。
本稿では,エンド・ツー・エンドの単眼深度推定に局所的特徴と大域的特徴を両立したデュアルウィンドウトランスフォーマネットワーク,dwinformerを提案する。
DwinFormerはデュアルウィンドウ自己アテンションとクロスアテンショントランスフォーマー、Dwin-SATとDwin-CATで構成されている。
Dwin-SATは、グローバルコンテキストを同時にキャプチャしながら、複雑な局所的な特徴をシームレスに抽出する。
ローカルウィンドウとグローバルウィンドウの注意力を利用して、短距離と長距離の両方の依存関係を適切にキャプチャし、アテンションマスクやウィンドウシフトのような複雑で計算コストの高い操作の必要性を回避している。
さらに、Dwin-SATは、翻訳等分散や大規模データへの依存の低減など、望ましい特性を提供する帰納バイアスを導入している。
さらに、従来の復号法は、エンコーダとデコーダの特徴を融合する際に意味的不一致とグローバルコンテキストの欠如をもたらすスキップ接続に依存することが多い。
対照的に、Dwin-CATはローカルとグローバルの両方のウィンドウクロスアテンションを使用して、エンコーダとデコーダの機能をシームレスに融合し、局所的および文脈的に認識されたグローバル情報の両方を微細化し、意味的ギャップを効果的に修正する。
NYU-Depth-V2データセットとKITTIデータセットの広範な実験により得られた実証的証拠は、提案手法の優位性を示し、屋内および屋外の両方の環境における既存のアプローチを一貫して上回っている。
関連論文リスト
- Medical Image Segmentation Using Directional Window Attention [15.108458363491412]
医用画像セグメンテーションのための階層型エンコーダデコーダアーキテクチャであるDwinFormerを紹介する。
DwinFormerは、入力特徴マップの水平方向、垂直方向、深度方向に沿って、ローカルおよびグローバルな情報をキャプチャする。
挑戦的な3DMulti-organデータセットとCell HMSデータセットに関する実験は、DwinFormerのメリットを実証しています。
論文 参考訳(メタデータ) (2024-06-25T11:15:56Z) - DGMamba: Domain Generalization via Generalized State Space Model [80.82253601531164]
ドメイン一般化(DG)は、様々な場面における分散シフト問題を解決することを目的としている。
Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。
本稿では,DGMamba という新たな DG フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-11T14:35:59Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net [19.21709807149165]
既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-08-17T19:45:28Z) - Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring
Network [58.05473757538834]
本稿では,ドメイン間のギャップを粗い粒度から細かな粒度に埋める新しい逆スコアリングネットワーク (ASNet) を提案する。
3組のマイグレーション実験により,提案手法が最先端のカウント性能を実現することを示す。
論文 参考訳(メタデータ) (2021-07-27T14:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。