論文の概要: Dual Vision Transformer
- arxiv url: http://arxiv.org/abs/2207.04976v1
- Date: Mon, 11 Jul 2022 16:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 12:59:52.433132
- Title: Dual Vision Transformer
- Title(参考訳): デュアルビジョントランス
- Authors: Ting Yao and Yehao Li and Yingwei Pan and Yu Wang and Xiao-Ping Zhang
and Tao Mei
- Abstract要約: デュアルビジョントランス(Dual-ViT)という,コスト問題を緩和する新しいトランスフォーマーアーキテクチャを提案する。
新しいアーキテクチャでは、トークンベクトルをより効率的にグローバルなセマンティックスに圧縮し、複雑さの順序を減らし、重要なセマンティックパスが組み込まれている。
我々は、Dual-ViTが訓練の複雑さを低減したSOTAトランスフォーマーアーキテクチャよりも優れた精度を提供することを実証的に実証した。
- 参考スコア(独自算出の注目度): 114.1062057736447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works have proposed several strategies to reduce the computational cost
of self-attention mechanism. Many of these works consider decomposing the
self-attention procedure into regional and local feature extraction procedures
that each incurs a much smaller computational complexity. However, regional
information is typically only achieved at the expense of undesirable
information lost owing to down-sampling. In this paper, we propose a novel
Transformer architecture that aims to mitigate the cost issue, named Dual
Vision Transformer (Dual-ViT). The new architecture incorporates a critical
semantic pathway that can more efficiently compress token vectors into global
semantics with reduced order of complexity. Such compressed global semantics
then serve as useful prior information in learning finer pixel level details,
through another constructed pixel pathway. The semantic pathway and pixel
pathway are then integrated together and are jointly trained, spreading the
enhanced self-attention information in parallel through both of the pathways.
Dual-ViT is henceforth able to reduce the computational complexity without
compromising much accuracy. We empirically demonstrate that Dual-ViT provides
superior accuracy than SOTA Transformer architectures with reduced training
complexity. Source code is available at
\url{https://github.com/YehLi/ImageNetModel}.
- Abstract(参考訳): 先行研究は自己認識機構の計算コストを削減するためのいくつかの戦略を提案した。
これらの研究の多くは、それぞれが計算の複雑さをはるかに少なくする局所的特徴抽出手順に自己着脱手順を分解することを検討している。
しかし、地域情報は通常、ダウンサンプリングによって失った望ましくない情報を犠牲にしてのみ達成される。
本稿では,dual vision transformer (dual-vit) という,コスト削減を目的とした新しいトランスフォーマーアーキテクチャを提案する。
新しいアーキテクチャには、より効率的にトークンベクトルをグローバルセマンティクスに圧縮し、複雑さの順序を下げる重要なセマンティクス経路が組み込まれている。
このような圧縮されたグローバルセマンティクスは、別の構築されたピクセル経路を通して、より細かいピクセルレベルの詳細を学ぶ上で有用な事前情報として機能する。
セマンティックパスとピクセルパスは統合され、共同で訓練され、両方の経路を通して拡張された自己認識情報を並列に拡散する。
そのため、Dual-ViTは計算の複雑さを減らすことができる。
我々は、Dual-ViTが訓練の複雑さを低減したSOTAトランスフォーマーアーキテクチャよりも優れた精度を提供することを示す。
ソースコードは \url{https://github.com/YehLi/ImageNetModel} で入手できる。
関連論文リスト
- Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Lightweight Bimodal Network for Single-Image Super-Resolution via
Symmetric CNN and Recursive Transformer [27.51790638626891]
シングルイメージ・スーパーレゾリューション(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成している。
そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。
具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。
論文 参考訳(メタデータ) (2022-04-28T04:43:22Z) - Unleashing the Power of Transformer for Graphs [28.750700720796836]
Transformerはグラフを扱う際にスケーラビリティの問題に悩まされる。
デュアルエンコードトランス (DET) と呼ばれる新しいトランスアーキテクチャを提案する。
DETは、接続された隣人からの情報を集約する構造エンコーダと、意味的に有用な遠隔ノードにフォーカスする意味エンコーダを備えている。
論文 参考訳(メタデータ) (2022-02-18T06:40:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [6.646135062704341]
トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
論文 参考訳(メタデータ) (2021-07-02T00:56:27Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。