論文の概要: Rethinking and Improving Relative Position Encoding for Vision
Transformer
- arxiv url: http://arxiv.org/abs/2107.14222v1
- Date: Thu, 29 Jul 2021 17:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 15:15:06.252460
- Title: Rethinking and Improving Relative Position Encoding for Vision
Transformer
- Title(参考訳): 視覚変換器の相対位置符号化再考と改善
- Authors: Kan Wu and Houwen Peng and Minghao Chen and Jianlong Fu and Hongyang
Chao
- Abstract要約: リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
- 参考スコア(独自算出の注目度): 61.559777439200744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative position encoding (RPE) is important for transformer to capture
sequence ordering of input tokens. General efficacy has been proven in natural
language processing. However, in computer vision, its efficacy is not well
studied and even remains controversial, e.g., whether relative position
encoding can work equally well as absolute position? In order to clarify this,
we first review existing relative position encoding methods and analyze their
pros and cons when applied in vision transformers. We then propose new relative
position encoding methods dedicated to 2D images, called image RPE (iRPE). Our
methods consider directional relative distance modeling as well as the
interactions between queries and relative position embeddings in self-attention
mechanism. The proposed iRPE methods are simple and lightweight. They can be
easily plugged into transformer blocks. Experiments demonstrate that solely due
to the proposed encoding methods, DeiT and DETR obtain up to 1.5% (top-1 Acc)
and 1.3% (mAP) stable improvements over their original versions on ImageNet and
COCO respectively, without tuning any extra hyperparameters such as learning
rate and weight decay. Our ablation and analysis also yield interesting
findings, some of which run counter to previous understanding. Code and models
are open-sourced at https://github.com/microsoft/Cream/tree/main/iRPE.
- Abstract(参考訳): リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャするために重要である。
自然言語処理では一般的な効果が証明されている。
しかし、コンピュータビジョンでは、その効果は十分に研究されておらず、相対的な位置エンコーディングが絶対位置と同等に機能するかどうかなど、議論すら残されている。
そこで本研究では, 既存の相対位置符号化法を概観し, 視覚トランスフォーマーに適用した場合の長所と短所を分析した。
次に,画像RPE(iRPE)と呼ばれる2次元画像専用の位置符号化手法を提案する。
本手法では,双方向相対距離モデリングと,問合せと相対位置埋め込みの相互作用について検討する。
提案手法は単純かつ軽量である。
簡単にトランスブロックに差し込むことができる。
提案された符号化法により、DeiTとDETRは、学習率や重量減少などの余分なハイパーパラメータを調整せずに、ImageNetとCOCOのオリジナルバージョンよりも最大1.5%(トップ-1 Acc)と1.3%(mAP)の安定な改善が得られることを示した。
我々のアブレーションと分析は興味深い発見をもたらし、いくつかは以前の理解と相反する。
コードとモデルはhttps://github.com/microsoft/Cream/tree/main/iRPEで公開されている。
関連論文リスト
- Positional Prompt Tuning for Efficient 3D Representation Learning [16.25423192020736]
ポイントクラウド分析は大きな発展を遂げており、ポイントクラウドの分類やセグメンテーションなど、複数のダウンストリームタスクでうまく機能している。
トランスフォーマーアーキテクチャにおける位置符号化構造の単純さを意識して、高次元部分としての位置符号化と、マルチスケール情報を提供するパッチエンコーダを重要視する。
ScanObjectNN OBJ_BGデータセットの95.01%の精度など、いくつかの主流データセットにおいて、PEFTタスクの提案した手法は、トレーニング用のパラメータの1.05%しか持たない。
論文 参考訳(メタデータ) (2024-08-21T12:18:34Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文 参考訳(メタデータ) (2021-07-13T08:07:22Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。