論文の概要: Transformer in Transformer
- arxiv url: http://arxiv.org/abs/2103.00112v1
- Date: Sat, 27 Feb 2021 03:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:27:52.570271
- Title: Transformer in Transformer
- Title(参考訳): 変圧器の変圧器
- Authors: Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, Yunhe Wang
- Abstract要約: パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
- 参考スコア(独自算出の注目度): 59.066686278998354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is a type of self-attention-based neural networks originally
applied for NLP tasks. Recently, pure transformer-based models are proposed to
solve computer vision problems. These visual transformers usually view an image
as a sequence of patches while they ignore the intrinsic structure information
inside each patch. In this paper, we propose a novel Transformer-iN-Transformer
(TNT) model for modeling both patch-level and pixel-level representation. In
each TNT block, an outer transformer block is utilized to process patch
embeddings, and an inner transformer block extracts local features from pixel
embeddings. The pixel-level feature is projected to the space of patch
embedding by a linear transformation layer and then added into the patch. By
stacking the TNT blocks, we build the TNT model for image recognition.
Experiments on ImageNet benchmark and downstream tasks demonstrate the
superiority and efficiency of the proposed TNT architecture. For example, our
TNT achieves $81.3\%$ top-1 accuracy on ImageNet which is $1.5\%$ higher than
that of DeiT with similar computational cost. The code will be available at
https://github.com/huawei-noah/noah-research/tree/master/TNT.
- Abstract(参考訳): Transformerは、もともとNLPタスクに適用される自己保持ベースのニューラルネットワークの一種です。
近年,コンピュータビジョン問題を解決するために純粋トランスフォーマーモデルが提案されている。
これらの視覚トランスフォーマーは通常、イメージをパッチのシーケンスと見なすが、各パッチの内部構造情報は無視する。
本稿では、パッチレベルとピクセルレベルの両方の表現をモデル化する新しいTransformer-iN-Transformer(TNT)モデルを提案する。
各TNTブロックにおいて、パッチ埋め込みの処理に外変圧器ブロックを使用し、内変圧器ブロックは画素埋め込みから局所特徴を抽出する。
ピクセルレベルの機能は、線形変換層によってパッチ埋め込みの空間に投影され、パッチに追加されます。
TNTブロックを積み重ねることで、画像認識のためのTNTモデルを構築する。
ImageNetベンチマークとダウンストリームタスクの実験は、提案したTNTアーキテクチャの優位性と効率性を示している。
例えば、われわれのTNTはImageNetで811.3\%$top-1の精度を達成しており、同様の計算コストでDeiTよりも1.5\%$高い。
コードはhttps://github.com/huawei-noah/noah-research/tree/master/TNTで入手できる。
関連論文リスト
- Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid
Architecture [46.252298619903165]
Transformer-in-Transformer (TNT) アーキテクチャは、内変圧器と外変圧器を用いて局所的および大域的表現を抽出する。
新しい"PyramidTNT"は階層的表現を確立することで、元のTNTを大幅に改善する。
PyramidTNTは、Swin Transformerのような従来の最先端のビジョントランスよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-01-04T04:56:57Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Transformer for Image Quality Assessment [14.975436239088312]
畳み込みニューラルネットワーク(CNN)により抽出された特徴マップの上部に浅層トランスフォーマーエンコーダを用いるアーキテクチャを提案する。
適応位置埋め込みは、任意の解像度で画像を処理するためにトランスフォーマーエンコーダで使用されます。
提案したTRIQアーキテクチャは優れた性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T18:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。