論文の概要: Do We Really Need Explicit Position Encodings for Vision Transformers?
- arxiv url: http://arxiv.org/abs/2102.10882v1
- Date: Mon, 22 Feb 2021 10:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-02-23 15:25:12.890419
- Title: Do We Really Need Explicit Position Encodings for Vision Transformers?
- Title(参考訳): ビジョントランスフォーマーの明示的な位置符号化は本当に必要ですか?
- Authors: Xiangxiang Chu and Bo Zhang and Zhi Tian and Xiaolin Wei and Huaxia
Xia
- Abstract要約: 入力トークンの局所近傍に条件付き位置符号化方式を提案する。
PEGを用いた新しいモデルは、Visual Transformer (CPVT) と呼ばれ、任意の長さの入力シーケンスを自然に処理できる。
我々は, cpvt が視覚的に類似したアテンションマップとなり, 予め定義された位置符号化よりも優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 29.7662570764424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Almost all visual transformers such as ViT or DeiT rely on predefined
positional encodings to incorporate the order of each input token. These
encodings are often implemented as learnable fixed-dimension vectors or
sinusoidal functions of different frequencies, which are not possible to
accommodate variable-length input sequences. This inevitably limits a wider
application of transformers in vision, where many tasks require changing the
input size on-the-fly.
In this paper, we propose to employ a conditional position encoding scheme,
which is conditioned on the local neighborhood of the input token. It is
effortlessly implemented as what we call Position Encoding Generator (PEG),
which can be seamlessly incorporated into the current transformer framework.
Our new model with PEG is named Conditional Position encoding Visual
Transformer (CPVT) and can naturally process the input sequences of arbitrary
length. We demonstrate that CPVT can result in visually similar attention maps
and even better performance than those with predefined positional encodings. We
obtain state-of-the-art results on the ImageNet classification task compared
with visual Transformers to date. Our code will be made available at
https://github.com/Meituan-AutoML/CPVT .
- Abstract(参考訳): ViTやDeiTのようなほとんど全てのビジュアルトランスフォーマーは、各入力トークンの順序を組み込むために予め定義された位置エンコーディングに依存している。
これらの符号化はしばしば、異なる周波数の学習可能な固定次元ベクトルや正弦波関数として実装され、可変長入力シーケンスに対応できない。
これは必然的に、多くのタスクがオンザフライで入力サイズを変更する必要がある視覚におけるトランスフォーマーの幅広い応用を制限する。
本稿では,入力トークンの局所近傍を条件とする条件付き位置符号化方式を提案する。
これは、現在のトランスフレームワークにシームレスに組み込むことができるポジショニングエンコーディングジェネレータ(PEG)と呼ばれるものとして簡単に実装されます。
PEGを使った新しいモデルはConditional Position encoding Visual Transformer (CPVT)と呼ばれ、任意の長さの入力シーケンスを自然に処理できます。
我々は, cpvt が視覚的に類似したアテンションマップとなり, 予め定義された位置符号化よりも優れた性能が得られることを示す。
ビジュアルトランスフォーマーと比較して、ImageNet分類タスクで最新の結果が得られます。
私たちのコードはhttps://github.com/Meituan-AutoML/CPVTで公開されます。
関連論文リスト
- Comparing Graph Transformers via Positional Encodings [11.5844121984212]
グラフ変換器の識別能力は位置符号化の選択と密接に結びついている。
位置符号化には、絶対位置符号化(APE)と相対位置符号化(RPE)の2種類がある。
APE と RPE を用いたグラフトランスフォーマーは、パワーの区別の点で等価であることを示す。
論文 参考訳(メタデータ) (2024-02-22T01:07:48Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Demystifying the Better Performance of Position Encoding Variants for
Transformer [12.503079503907989]
トランスフォーマーモデルに位置とセグメントをエンコードする方法を示します。
提案手法は、GLUE, XTREME, WMTベンチマークのSOTAと同等に実行し、コストを節約する。
論文 参考訳(メタデータ) (2021-04-18T03:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。