論文の概要: Pattern Attention Transformer with Doughnut Kernel
- arxiv url: http://arxiv.org/abs/2211.16961v1
- Date: Wed, 30 Nov 2022 13:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:02:22.506706
- Title: Pattern Attention Transformer with Doughnut Kernel
- Title(参考訳): ドーナツ核を用いたパターン注目トランス
- Authors: WenYuan Sheng
- Abstract要約: Pattern Attention Transformer (PAT) は新しいドーナツカーネルで構成されている。
PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックで設計されている。
ImageNet 1Kのパフォーマンスは、Swin Transformer (+0.7 acc1)を上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present in this paper a new architecture, the Pattern Attention
Transformer (PAT), that is composed of the new doughnut kernel. Compared with
tokens in the NLP field, Transformer in computer vision has the problem of
handling the high resolution of pixels in images. Inheriting the patch/window
idea from ViT and its follow-ups, the doughnut kernel enhances the design of
patches. It replaces the line-cut boundaries with two types of areas: sensor
and updating, which is based on the comprehension of self-attention (named QKVA
grid). The doughnut kernel also brings a new topic about the shape of kernels.
To verify its performance on image classification, PAT is designed with
Transformer blocks of regular octagon shape doughnut kernels. Its performance
on ImageNet 1K surpasses the Swin Transformer (+0.7 acc1).
- Abstract(参考訳): 本稿では,新しいドーナツカーネルからなる新しいアーキテクチャであるPattern Attention Transformer(PAT)を提案する。
NLPフィールドのトークンと比較すると、コンピュータビジョンのトランスフォーマーは画像中のピクセルの高解像度処理に問題がある。
ViTとその後継からパッチ/ウィンドウのアイデアを継承し、ドーナツカーネルはパッチの設計を強化する。
ラインカットの境界を、センサーと更新という2つのタイプの領域に置き換える。
ドーナツカーネルはまた、カーネルの形状に関する新しいトピックももたらしている。
画像分類の性能を検証するため、PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックを用いて設計されている。
imagenet 1kの性能はスウィントランス (+0.7 acc1) を上回っている。
関連論文リスト
- Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。