論文の概要: Pattern Attention Transformer with Doughnut Kernel
- arxiv url: http://arxiv.org/abs/2211.16961v5
- Date: Sun, 17 Sep 2023 13:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 01:09:57.657673
- Title: Pattern Attention Transformer with Doughnut Kernel
- Title(参考訳): ドーナツ核を用いたパターン注目トランス
- Authors: WenYuan Sheng
- Abstract要約: Pattern Attention Transformer (PAT) は新しいドーナツカーネルで構成されている。
PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックで設計されている。
ImageNet 1Kのパフォーマンスは、高いスループット(+10%)に達し、Swin Transformer(+0.8 acc1)を超える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present in this paper a new architecture, the Pattern Attention
Transformer (PAT), that is composed of the new doughnut kernel. Compared with
tokens in the NLP field, Transformer in computer vision has the problem of
handling the high resolution of pixels in images. In ViT, an image is cut into
square-shaped patches. As the follow-up of ViT, Swin Transformer proposes an
additional step of shifting to decrease the existence of fixed boundaries,
which also incurs 'two connected Swin Transformer blocks' as the minimum unit
of the model. Inheriting the patch/window idea, our doughnut kernel enhances
the design of patches further. It replaces the line-cut boundaries with two
types of areas: sensor and updating, which is based on the comprehension of
self-attention (named QKVA grid). The doughnut kernel also brings a new topic
about the shape of kernels beyond square. To verify its performance on image
classification, PAT is designed with Transformer blocks of regular octagon
shape doughnut kernels. Its architecture is lighter: the minimum pattern
attention layer is only one for each stage. Under similar complexity of
computation, its performances on ImageNet 1K reach higher throughput (+10%) and
surpass Swin Transformer (+0.8 acc1).
- Abstract(参考訳): 本稿では,新しいドーナツカーネルからなる新しいアーキテクチャであるPattern Attention Transformer(PAT)を提案する。
NLPフィールドのトークンと比較すると、コンピュータビジョンのトランスフォーマーは画像中のピクセルの高解像度処理に問題がある。
ViTでは、画像を正方形のパッチにカットする。
ViTの後継として、Swin Transformerは、モデルの最小単位として「2つの連結Swin Transformerブロック」を発生させる固定境界の存在を減らすための追加ステップを提案する。
パッチ/ウィンドウのアイデアを継承することで、downutカーネルはパッチの設計をさらに強化します。
ラインカットの境界を、センサーと更新という2つのタイプの領域に置き換える。
ドーナツカーネルはまた、正方形を超えてカーネルの形に関する新しいトピックをもたらす。
画像分類の性能を検証するため、PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックを用いて設計されている。
そのアーキテクチャはより軽量で、最小のパターン注意層は各ステージに1つしかない。
同様の計算の複雑さの下で、imagenet 1kの性能は高いスループット(+10%)に達し、スウィントランス(+0.8acc1)を超える。
関連論文リスト
- Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。