論文の概要: CompletionFormer: Depth Completion with Convolutions and Vision
Transformers
- arxiv url: http://arxiv.org/abs/2304.13030v1
- Date: Tue, 25 Apr 2023 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 19:19:42.426532
- Title: CompletionFormer: Depth Completion with Convolutions and Vision
Transformers
- Title(参考訳): completionformer:畳み込みと視覚変換による奥行き補完
- Authors: Zhang Youmin, Guo Xianda, Poggi Matteo, Zhu Zheng, Huang Guan,
Mattoccia Stefano
- Abstract要約: 本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given sparse depths and the corresponding RGB images, depth completion aims
at spatially propagating the sparse measurements throughout the whole image to
get a dense depth prediction. Despite the tremendous progress of
deep-learning-based depth completion methods, the locality of the convolutional
layer or graph model makes it hard for the network to model the long-range
relationship between pixels. While recent fully Transformer-based architecture
has reported encouraging results with the global receptive field, the
performance and efficiency gaps to the well-developed CNN models still exist
because of its deteriorative local feature details. This paper proposes a Joint
Convolutional Attention and Transformer block (JCAT), which deeply couples the
convolutional attention layer and Vision Transformer into one block, as the
basic unit to construct our depth completion model in a pyramidal structure.
This hybrid architecture naturally benefits both the local connectivity of
convolutions and the global context of the Transformer in one single model. As
a result, our CompletionFormer outperforms state-of-the-art CNNs-based methods
on the outdoor KITTI Depth Completion benchmark and indoor NYUv2 dataset,
achieving significantly higher efficiency (nearly 1/3 FLOPs) compared to pure
Transformer-based methods. Code is available at
\url{https://github.com/youmi-zym/CompletionFormer}.
- Abstract(参考訳): スパース深度と対応するRGB画像が与えられた場合、深度補正は画像全体を通してスパース計測を空間的に伝播させ、深度予測を得ることを目的としている。
深層学習に基づく深層学習手法の進歩にもかかわらず、畳み込み層やグラフモデルの局所性により、ネットワークが画素間の長距離関係をモデル化することは困難である。
最近の完全トランスフォーマーベースのアーキテクチャは、グローバルレセプション分野での成果を奨励していると報告しているが、十分に開発されているcnnモデルの性能と効率の差は、局所的な特徴の詳細のために依然として残っている。
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1ブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
このハイブリッドアーキテクチャは、自然に畳み込みの局所接続と1つのモデルにおけるトランスフォーマーのグローバルコンテキストの両方にメリットがある。
その結果,屋外kitti深度補完ベンチマークと屋内nyuv2データセットのcnns法を上回り,純粋なトランスフォーマー法に比べて高い効率(約1/3フロップ)を達成した。
コードは \url{https://github.com/youmi-zym/CompletionFormer} で入手できる。
関連論文リスト
- SDformer: Efficient End-to-End Transformer for Depth Completion [5.864200786548098]
深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。
現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。
CNNの欠点を克服するため、適応型自己アテンション設定シーケンス・ツー・シーケンスモデルである、より効果的で強力な手法が提案されている。
論文 参考訳(メタデータ) (2024-09-12T15:52:08Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion
Network for Depth Completion [3.8558637038709622]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation [11.190117191084175]
本稿では,DeepLabライクな医用画像セグメンテーション用トランスフォーマであるTransDeepLabを提案する。
我々は、DeepLabv3を拡張し、ASPPモジュールをモデル化するために、シフトウィンドウを持つ階層型Swin-Transformerを利用する。
提案手法は,視覚変換器とCNNに基づく手法のアマルガメーションにおいて,現代のほとんどの作品に匹敵する,あるいは同等に動作する。
論文 参考訳(メタデータ) (2022-08-01T09:53:53Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。