論文の概要: Vision Transformers for Dense Prediction
- arxiv url: http://arxiv.org/abs/2103.13413v1
- Date: Wed, 24 Mar 2021 18:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:41:21.559672
- Title: Vision Transformers for Dense Prediction
- Title(参考訳): ディエンス予測のための視覚変換器
- Authors: Ren\'e Ranftl, Alexey Bochkovskiy, Vladlen Koltun
- Abstract要約: 高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce dense vision transformers, an architecture that leverages vision
transformers in place of convolutional networks as a backbone for dense
prediction tasks. We assemble tokens from various stages of the vision
transformer into image-like representations at various resolutions and
progressively combine them into full-resolution predictions using a
convolutional decoder. The transformer backbone processes representations at a
constant and relatively high resolution and has a global receptive field at
every stage. These properties allow the dense vision transformer to provide
finer-grained and more globally coherent predictions when compared to
fully-convolutional networks. Our experiments show that this architecture
yields substantial improvements on dense prediction tasks, especially when a
large amount of training data is available. For monocular depth estimation, we
observe an improvement of up to 28% in relative performance when compared to a
state-of-the-art fully-convolutional network. When applied to semantic
segmentation, dense vision transformers set a new state of the art on ADE20K
with 49.02% mIoU. We further show that the architecture can be fine-tuned on
smaller datasets such as NYUv2, KITTI, and Pascal Context where it also sets
the new state of the art. Our models are available at
https://github.com/intel-isl/DPT.
- Abstract(参考訳): 高密度予測タスクのバックボーンとして,畳み込みネットワークに代えて視覚トランスフォーマーを利用するアーキテクチャである。
視覚変換器の様々な段階のトークンを様々な解像度で画像ライクな表現に分解し、畳み込みデコーダを用いて徐々に全解像度の予測に組み合わせる。
変換器のバックボーンは、一定かつ比較的高解像度で表現を処理し、各段階で大域的受容場を持つ。
これらの特性により、高密度な視覚変換器は、完全な畳み込みネットワークと比較して、より微細でよりグローバルなコヒーレントな予測を提供することができる。
実験の結果、このアーキテクチャは、特に大量のトレーニングデータが利用可能である場合、高密度な予測タスクを大幅に改善することがわかった。
単分子深度推定では,最先端の完全畳み込みネットワークと比較して,相対的性能が最大28%向上した。
セマンティックセグメンテーションに適用すると、密度の高い視覚変換器は ADE20K に49.02% mIoU で新しい状態を設定した。
さらに、アーキテクチャがNYUv2、KITTI、Pascal Contextといった小さなデータセットで微調整可能であることも示しています。
私たちのモデルはhttps://github.com/intel-isl/DPTで利用可能です。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。