論文の概要: SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation
- arxiv url: http://arxiv.org/abs/2204.13892v1
- Date: Fri, 29 Apr 2022 05:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 14:42:29.544990
- Title: SideRT: A Real-time Pure Transformer Architecture for Single Image Depth
Estimation
- Title(参考訳): SideRT: 単一画像深度推定のためのリアルタイムPure Transformerアーキテクチャ
- Authors: Chang Shu, Ziming Chen, Lei Chen, Kuan Ma, Minghui Wang and Haibing
Ren
- Abstract要約: そこで我々は,SideRTと呼ばれる純粋なトランスフォーマーアーキテクチャを提案する。
これは、トランスフォーマーベースのネットワークが、単一画像深度推定フィールドにおいて、リアルタイムに最先端の性能が得られることを示す最初の研究である。
- 参考スコア(独自算出の注目度): 11.513054537848227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since context modeling is critical for estimating depth from a single image,
researchers put tremendous effort into obtaining global context. Many global
manipulations are designed for traditional CNN-based architectures to overcome
the locality of convolutions. Attention mechanisms or transformers originally
designed for capturing long-range dependencies might be a better choice, but
usually complicates architectures and could lead to a decrease in inference
speed. In this work, we propose a pure transformer architecture called SideRT
that can attain excellent predictions in real-time. In order to capture better
global context, Cross-Scale Attention (CSA) and Multi-Scale Refinement (MSR)
modules are designed to work collaboratively to fuse features of different
scales efficiently. CSA modules focus on fusing features of high semantic
similarities, while MSR modules aim to fuse features at corresponding
positions. These two modules contain a few learnable parameters without
convolutions, based on which a lightweight yet effective model is built. This
architecture achieves state-of-the-art performances in real-time (51.3 FPS) and
becomes much faster with a reasonable performance drop on a smaller backbone
Swin-T (83.1 FPS). Furthermore, its performance surpasses the previous
state-of-the-art by a large margin, improving AbsRel metric 6.9% on KITTI and
9.7% on NYU. To the best of our knowledge, this is the first work to show that
transformer-based networks can attain state-of-the-art performance in real-time
in the single image depth estimation field. Code will be made available soon.
- Abstract(参考訳): 単一の画像から深さを推定するにはコンテキストモデリングが不可欠であるため、研究者はグローバルなコンテキストの獲得に多大な努力を払った。
多くのグローバル操作は、畳み込みの局所性を克服するために伝統的なcnnベースのアーキテクチャのために設計されている。
本来は長距離依存関係をキャプチャするために設計されたアテンション機構やトランスフォーマーの方がよいが、アーキテクチャが複雑になり、推論速度が低下する可能性がある。
本稿では, リアルタイムに優れた予測を実現するために, sidert と呼ばれる純粋トランスフォーマーアーキテクチャを提案する。
より良いグローバルコンテキストを捉えるために、クロススケールアテンション(CSA)とマルチスケールリファインメント(MSR)モジュールは、異なるスケールの機能を効率的に融合するために協調して動作するように設計されている。
CSAモジュールは高い意味的類似性の融合機能に重点を置いており、MSRモジュールは対応する位置で機能を融合することを目指している。
これら2つのモジュールは、軽量で効果的なモデルを構築した畳み込みのないいくつかの学習可能なパラメータを含んでいる。
このアーキテクチャは、リアルタイム(51.3 FPS)で最先端のパフォーマンスを達成し、より小さなバックボーンSwin-T(83.1 FPS)上での適切なパフォーマンス低下により、はるかに高速になる。
さらに、その性能は以前の最先端技術を大きく上回り、キッティではアブスレルメートル法を6.9%、ニュアンスでは9.7%改善した。
私たちの知る限りでは、トランスフォーマーベースのネットワークが単一の画像深度推定分野でリアルタイムに最先端のパフォーマンスを達成できることを示す最初の作品です。
コードはもうすぐ利用可能になる。
関連論文リスト
- HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation [9.967643080731683]
CNNとトランスフォーマーの効率的な組み合わせについて検討し,Lite-Monoのハイブリッドアーキテクチャを設計する。
完全なモデルはMonodepth2よりも精度が高く、トレーニング可能なパラメータが約80%少ない。
論文 参考訳(メタデータ) (2022-11-23T18:43:41Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。