論文の概要: PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid
Architecture
- arxiv url: http://arxiv.org/abs/2201.00978v1
- Date: Tue, 4 Jan 2022 04:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:47:01.998268
- Title: PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid
Architecture
- Title(参考訳): pyramidtnt: ピラミッドアーキテクチャによるtransform-in-transformerベースラインの改善
- Authors: Kai Han, Jianyuan Guo, Yehui Tang, Yunhe Wang
- Abstract要約: Transformer-in-Transformer (TNT) アーキテクチャは、内変圧器と外変圧器を用いて局所的および大域的表現を抽出する。
新しい"PyramidTNT"は階層的表現を確立することで、元のTNTを大幅に改善する。
PyramidTNTは、Swin Transformerのような従来の最先端のビジョントランスよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 46.252298619903165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer networks have achieved great progress for computer vision tasks.
Transformer-in-Transformer (TNT) architecture utilizes inner transformer and
outer transformer to extract both local and global representations. In this
work, we present new TNT baselines by introducing two advanced designs: 1)
pyramid architecture, and 2) convolutional stem. The new "PyramidTNT"
significantly improves the original TNT by establishing hierarchical
representations. PyramidTNT achieves better performances than the previous
state-of-the-art vision transformers such as Swin Transformer. We hope this new
baseline will be helpful to the further research and application of vision
transformer. Code will be available at
https://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch.
- Abstract(参考訳): トランスフォーマーネットワークはコンピュータビジョンタスクにおいて大きな進歩を遂げた。
Transformer-in-Transformer (TNT) アーキテクチャは、内変圧器と外変圧器を用いて局所的および大域的表現を抽出する。
本稿では,2つの高度な設計を導入することで,新しいTNTベースラインを提案する。
1)ピラミッド建築、及び
2) コンボリューションステム。
新しい"PyramidTNT"は階層的表現を確立することで、元のTNTを大幅に改善する。
PyramidTNTは、Swin Transformerのような従来の最先端のビジョントランスよりも優れたパフォーマンスを実現している。
この新たなベースラインが、視覚変換器のさらなる研究と応用に役立つことを願っている。
コードはhttps://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorchで入手できる。
関連論文リスト
- Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - PVT v2: Improved Baselines with Pyramid Vision Transformer [112.0139637538858]
原型ピラミドビジョントランス(PVT v1)の改良
PVT v2は、PVT v1の計算複雑性を線形に減少させる。
分類、検出、セグメンテーションといった基本的なビジョンタスクにおいて、大幅な改善が達成されている。
論文 参考訳(メタデータ) (2021-06-25T17:51:09Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z) - Transformer for Image Quality Assessment [14.975436239088312]
畳み込みニューラルネットワーク(CNN)により抽出された特徴マップの上部に浅層トランスフォーマーエンコーダを用いるアーキテクチャを提案する。
適応位置埋め込みは、任意の解像度で画像を処理するためにトランスフォーマーエンコーダで使用されます。
提案したTRIQアーキテクチャは優れた性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T18:43:11Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。