論文の概要: Dynamic Token Normalization Improves Vision Transformer
- arxiv url: http://arxiv.org/abs/2112.02624v1
- Date: Sun, 5 Dec 2021 17:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:22:40.998178
- Title: Dynamic Token Normalization Improves Vision Transformer
- Title(参考訳): 動的トークン正規化によるビジョントランスの改良
- Authors: Wenqi Shao, Yixiao Ge, Zhaoyang Zhang, Xuyuan Xu, Xiaogang Wang, Ying
Shan, Ping Luo
- Abstract要約: 動的トークン正規化(DTN)と呼ばれる新しい正規化器を提案する。
DTNはトークンをトークン内およびトークン間の両方で正規化することを学ぶ。
最小限の余分なパラメータと計算オーバーヘッドでベースラインモデルを上回っている。
- 参考スコア(独自算出の注目度): 48.63155906080236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) and its variants (e.g., Swin, PVT) have achieved
great success in various computer vision tasks, owing to their capability to
learn long-range contextual information. Layer Normalization (LN) is an
essential ingredient in these models. However, we found that the ordinary LN
makes tokens at different positions similar in magnitude because it normalizes
embeddings within each token. It is difficult for Transformers to capture
inductive bias such as the positional context in an image with LN. We tackle
this problem by proposing a new normalizer, termed Dynamic Token Normalization
(DTN), where normalization is performed both within each token (intra-token)
and across different tokens (inter-token). DTN has several merits. Firstly, it
is built on a unified formulation and thus can represent various existing
normalization methods. Secondly, DTN learns to normalize tokens in both
intra-token and inter-token manners, enabling Transformers to capture both the
global contextual information and the local positional context. {Thirdly, by
simply replacing LN layers, DTN can be readily plugged into various vision
transformers, such as ViT, Swin, PVT, LeViT, T2T-ViT, BigBird and Reformer.
Extensive experiments show that the transformer equipped with DTN consistently
outperforms baseline model with minimal extra parameters and computational
overhead. For example, DTN outperforms LN by $0.5\%$ - $1.2\%$ top-1 accuracy
on ImageNet, by $1.2$ - $1.4$ box AP in object detection on COCO benchmark, by
$2.3\%$ - $3.9\%$ mCE in robustness experiments on ImageNet-C, and by $0.5\%$ -
$0.8\%$ accuracy in Long ListOps on Long-Range Arena.} Codes will be made
public at \url{https://github.com/wqshao126/DTN}
- Abstract(参考訳): ビジョントランスフォーマー(vit)とその変種(swain、pvtなど)は、様々なコンピュータビジョンタスクにおいて、長距離の文脈情報を学ぶ能力により、大きな成功を収めている。
層正規化(LN)はこれらのモデルにおいて重要な要素である。
しかし,各トークン内の埋め込みを正規化するため,通常のlnは異なる位置のトークンを大小同値に生成することが分かった。
トランスフォーマーは、LNの画像における位置コンテキストのような帰納バイアスをキャプチャすることは困難である。
我々は,新しい正規化器である動的トークン正規化(DTN)を提案し,各トークン(イントラトークン)内および異なるトークン(インタートークン)間で正規化を行う。
DTNにはいくつかの利点がある。
第一に、統一的な定式化に基づいているため、既存の様々な正規化法を表現できる。
次に、DTNはトークンをトークン内およびトークン間の両方で正規化することを学び、トランスフォーマーはグローバルなコンテキスト情報とローカルな位置コンテキストの両方をキャプチャできる。
第三に、単にLN層を置き換えることで、DTNはViT、Swin、PVT、LeViT、T2T-ViT、BigBird、Reformerといった様々な視覚変換器に簡単に接続できる。
DTNを組み込んだ変圧器は、最小限の余剰パラメータと計算オーバーヘッドでベースラインモデルより一貫して優れていた。
例えば、DTN は ImageNet で LN を0.5 %$ - $1.2 %$ トップ-1 精度で、COCO ベンチマークでオブジェクト検出で 1.2 ドル - $1.4 ドル AP で、2.3 %$ - $3.9 %$ mCE で、ImageNet-C でロバストネス実験で 2.9 %$ mCE で、Long-Range Arena で Long ListOps で 0. %$$0.8 %$ で 0.5 % で上回っている。
} コードは \url{https://github.com/wqshao126/dtn} で公開される。
関連論文リスト
- Role of Locality and Weight Sharing in Image-Based Tasks: A Sample Complexity Separation between CNNs, LCNs, and FCNs [42.551773746803946]
視覚タスクは局所性と翻訳不変性の特性によって特徴づけられる。
これらのタスクにおける畳み込みニューラルネットワーク(CNN)の優れた性能は、そのアーキテクチャに埋め込まれた局所性や重み付けの帰納的バイアスに起因する。
CNNにおけるこれらのバイアスの統計的利点を、局所連結ニューラルネットワーク(LCN)と完全連結ニューラルネットワーク(FCN)で定量化しようとする試みは、以下のカテゴリに分類される。
論文 参考訳(メタデータ) (2024-03-23T03:57:28Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Person Re-Identification with a Locally Aware Transformer [9.023847175654602]
そこで我々は,局所的に拡張された局所的分類トークンを集約するための,パートベースの畳み込みベースライン(PCB)にインスパイアされた戦略を取り入れた,局所的認識変換器(LA-Transformer)を提案する。
ブロックワイズ微調整のLA-Transformerは、標準偏差がマーケット1501で0.13ドル、標準偏差がCUHK03で0.1ドル、ランク1の精度が980.27ドルである。
論文 参考訳(メタデータ) (2021-06-07T15:31:19Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。