論文の概要: Glance-and-Gaze Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.02277v1
- Date: Fri, 4 Jun 2021 06:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:04:03.511912
- Title: Glance-and-Gaze Vision Transformer
- Title(参考訳): Glance-and-Gaze Vision Transformer
- Authors: Qihang Yu, Yingda Xia, Yutong Bai, Yongyi Lu, Alan Yuille, Wei Shen
- Abstract要約: 我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
- 参考スコア(独自算出の注目度): 13.77016463781053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there emerges a series of vision Transformers, which show superior
performance with a more compact model size than conventional convolutional
neural networks, thanks to the strong ability of Transformers to model
long-range dependencies. However, the advantages of vision Transformers also
come with a price: Self-attention, the core part of Transformer, has a
quadratic complexity to the input sequence length. This leads to a dramatic
increase of computation and memory cost with the increase of sequence length,
thus introducing difficulties when applying Transformers to the vision tasks
that require dense predictions based on high-resolution feature maps. In this
paper, we propose a new vision Transformer, named Glance-and-Gaze Transformer
(GG-Transformer), to address the aforementioned issues. It is motivated by the
Glance and Gaze behavior of human beings when recognizing objects in natural
scenes, with the ability to efficiently model both long-range dependencies and
local context. In GG-Transformer, the Glance and Gaze behavior is realized by
two parallel branches: The Glance branch is achieved by performing
self-attention on the adaptively-dilated partitions of the input, which leads
to a linear complexity while still enjoying a global receptive field; The Gaze
branch is implemented by a simple depth-wise convolutional layer, which
compensates local image context to the features obtained by the Glance
mechanism. We empirically demonstrate our method achieves consistently superior
performance over previous state-of-the-art Transformers on various vision tasks
and benchmarks. The codes and models will be made available at
https://github.com/yucornetto/GG-Transformer.
- Abstract(参考訳): 最近、トランスフォーマーが長距離依存をモデル化する強力な能力のおかげで、従来の畳み込みニューラルネットワークよりもコンパクトなモデルサイズで優れたパフォーマンスを示す一連のビジョントランスフォーマーが登場している。
しかし、視覚変換器の利点には価格もある: Transformerの中核部分であるSelf-attentionは入力シーケンスの長さに二次的な複雑さを持つ。
これにより、シーケンス長の増加に伴う計算とメモリコストの劇的な増加を招き、高分解能特徴マップに基づく密な予測を必要とするビジョンタスクにトランスフォーマーを適用することが困難になる。
本稿では,Glance-and-Gaze Transformer (GG-Transformer) と呼ばれる新しい視覚変換器を提案する。
自然界の物体を認識する際に人間のガンス・アンド・ゲイズ行動によって動機付けられ、長距離依存と局所文脈の両方を効率的にモデル化することができる。
GG-Transformer では、Glance と Gaze の動作は2つの並列分岐によって実現される: Glance のブランチは、入力の適応的に拡張された分割に対して自己アテンションを行い、大域的受容場を楽しみながら線形複雑になる; Gaze のブランチは、Glance のメカニズムによって得られる特徴に局所的なイメージコンテキストを補う単純な深度的な畳み込み層によって実装される。
本手法は,様々な視覚タスクやベンチマークにおいて,従来の最先端トランスフォーマーよりも一貫した性能を実現することを実証的に実証する。
コードとモデルはhttps://github.com/yucornetto/GG-Transformer.comで公開される。
関連論文リスト
- iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。