論文の概要: Visual Transformers: Token-based Image Representation and Processing for
Computer Vision
- arxiv url: http://arxiv.org/abs/2006.03677v4
- Date: Fri, 20 Nov 2020 00:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:43:17.528490
- Title: Visual Transformers: Token-based Image Representation and Processing for
Computer Vision
- Title(参考訳): 視覚トランスフォーマー:コンピュータビジョンのためのトークンベースの画像表現と処理
- Authors: Bichen Wu, Chenfeng Xu, Xiaoliang Dai, Alvin Wan, Peizhao Zhang,
Zhicheng Yan, Masayoshi Tomizuka, Joseph Gonzalez, Kurt Keutzer, Peter Vajda
- Abstract要約: Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
- 参考スコア(独自算出の注目度): 67.55770209540306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision has achieved remarkable success by (a) representing images as
uniformly-arranged pixel arrays and (b) convolving highly-localized features.
However, convolutions treat all image pixels equally regardless of importance;
explicitly model all concepts across all images, regardless of content; and
struggle to relate spatially-distant concepts. In this work, we challenge this
paradigm by (a) representing images as semantic visual tokens and (b) running
transformers to densely model token relationships. Critically, our Visual
Transformer operates in a semantic token space, judiciously attending to
different image parts based on context. This is in sharp contrast to
pixel-space transformers that require orders-of-magnitude more compute. Using
an advanced training recipe, our VTs significantly outperform their
convolutional counterparts, raising ResNet accuracy on ImageNet top-1 by 4.6 to
7 points while using fewer FLOPs and parameters. For semantic segmentation on
LIP and COCO-stuff, VT-based feature pyramid networks (FPN) achieve 0.35 points
higher mIoU while reducing the FPN module's FLOPs by 6.5x.
- Abstract(参考訳): コンピュータビジョンは驚くべき成功を収めた
(a)一様に配置された画素配列と画像を表す
(b)高度に局所化された特徴を伴う。
しかし、畳み込みは、重要性に関係なくすべての画像ピクセルを平等に扱い、コンテンツに関係なくすべてのイメージを明示的にモデル化し、空間的に異なる概念を関連付けるのに苦労する。
本研究では,このパラダイムに挑戦する。
(a)イメージを意味的視覚的トークンとして表現し、
b) トークン関係を密にモデル化するためにトランスフォーマーを実行する。
重要な点として、私たちのVisual Transformerはセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に順応する。
これは、高次計算を必要とするピクセル空間変換器とは対照的である。
高度なトレーニングレシピを使用することで、私たちのVTは畳み込みよりも大幅に優れ、ImageNet top-1上のResNetの精度は4.6から7ポイント向上し、FLOPやパラメータは少なくなった。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成する。
関連論文リスト
- T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。