論文の概要: Vision Transformer with Progressive Sampling
- arxiv url: http://arxiv.org/abs/2108.01684v1
- Date: Tue, 3 Aug 2021 18:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:20:40.897422
- Title: Vision Transformer with Progressive Sampling
- Title(参考訳): プログレッシブサンプリングを用いたビジョントランス
- Authors: Xiaoyu Yue, Shuyang Sun, Zhanghui Kuang, Meng Wei, Philip Torr, Wayne
Zhang, Dahua Lin
- Abstract要約: 本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 73.60630716500154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers with powerful global relation modeling abilities have been
introduced to fundamental computer vision tasks recently. As a typical example,
the Vision Transformer (ViT) directly applies a pure transformer architecture
on image classification, by simply splitting images into tokens with a fixed
length, and employing transformers to learn relations between these tokens.
However, such naive tokenization could destruct object structures, assign grids
to uninterested regions such as background, and introduce interference signals.
To mitigate the above issues, in this paper, we propose an iterative and
progressive sampling strategy to locate discriminative regions. At each
iteration, embeddings of the current sampling step are fed into a transformer
encoder layer, and a group of sampling offsets is predicted to update the
sampling locations for the next step. The progressive sampling is
differentiable. When combined with the Vision Transformer, the obtained PS-ViT
network can adaptively learn where to look. The proposed PS-ViT is both
effective and efficient. When trained from scratch on ImageNet, PS-ViT performs
3.8% higher than the vanilla ViT in terms of top-1 accuracy with about
$4\times$ fewer parameters and $10\times$ fewer FLOPs. Code is available at
https://github.com/yuexy/PS-ViT.
- Abstract(参考訳): 近年,基本的なコンピュータビジョンタスクに強力なグローバルリレーショナルモデリング能力を持つトランスフォーマーが導入された。
典型的な例として、ViT(Vision Transformer)は画像分類に純粋なトランスフォーマーアーキテクチャを適用し、画像を固定長のトークンに分割し、これらのトークン間の関係を学習するためにトランスフォーマーを使用する。
しかし、そのような単純トークン化は、オブジェクト構造を分解し、背景のような興味のない領域にグリッドを割り当て、干渉信号を導入する。
上記の問題を緩和するため,本論文では,識別領域を特定するための反復的かつ漸進的なサンプリング戦略を提案する。
各イテレーションにおいて、現在のサンプリングステップの埋め込みを変圧器エンコーダ層に供給し、サンプリングオフセットのグループを予測して次のステップのサンプリングロケーションを更新する。
プログレッシブサンプリングは微分可能である。
Vision Transformerと組み合わせると、取得したPS-ViTネットワークは、どこを見るべきかを適応的に学習することができる。
提案したPS-ViTは効率的かつ効率的である。
ImageNetでスクラッチからトレーニングすると、PS-ViTはベニラ ViT よりも3.8%高い精度で、パラメータが約4ドル、FLOPが約10ドルである。
コードはhttps://github.com/yuexy/PS-ViT.comで入手できる。
関連論文リスト
- Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - ATS: Adaptive Token Sampling For Efficient Vision Transformers [33.297806854292155]
本稿では,パラメータフリーな適応トークンサンプリング(ATS)モジュールを導入し,既存の視覚トランスフォーマアーキテクチャにプラグインすることができる。
ATSは、重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。
論文 参考訳(メタデータ) (2021-11-30T18:56:57Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。