論文の概要: Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning
- arxiv url: http://arxiv.org/abs/2210.01035v1
- Date: Mon, 3 Oct 2022 15:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:25:20.701393
- Title: Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning
- Title(参考訳): 微調整を伴わない高密度予測のための大規模視覚変圧器の高速化
- Authors: Weicong Liang and Yuhui Yuan and Henghui Ding and Xiao Luo and Weihong
Lin and Ding Jia and Zheng Zhang and Chao Zhang and Han Hu
- Abstract要約: 大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
- 参考スコア(独自算出の注目度): 28.180891300826165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have recently achieved competitive results across various
vision tasks but still suffer from heavy computation costs when processing a
large number of tokens. Many advanced approaches have been developed to reduce
the total number of tokens in large-scale vision transformers, especially for
image classification tasks. Typically, they select a small group of essential
tokens according to their relevance with the class token, then fine-tune the
weights of the vision transformer. Such fine-tuning is less practical for dense
prediction due to the much heavier computation and GPU memory cost than image
classification. In this paper, we focus on a more challenging problem, i.e.,
accelerating large-scale vision transformers for dense prediction without any
additional re-training or fine-tuning. In response to the fact that
high-resolution representations are necessary for dense prediction, we present
two non-parametric operators, a token clustering layer to decrease the number
of tokens and a token reconstruction layer to increase the number of tokens.
The following steps are performed to achieve this: (i) we use the token
clustering layer to cluster the neighboring tokens together, resulting in
low-resolution representations that maintain the spatial structures; (ii) we
apply the following transformer layers only to these low-resolution
representations or clustered tokens; and (iii) we use the token reconstruction
layer to re-create the high-resolution representations from the refined
low-resolution representations. The results obtained by our method are
promising on five dense prediction tasks, including object detection, semantic
segmentation, panoptic segmentation, instance segmentation, and depth
estimation.
- Abstract(参考訳): ビジョントランスフォーマーは、最近様々なビジョンタスクで競合する結果を得たが、多くのトークンを処理する際には計算コストが重い。
大規模視覚変換器におけるトークンの総数を削減するため,多くの高度な手法が開発されている。
通常、彼らはクラストークンとの関係に応じて重要なトークンの小さなグループを選択し、視覚変換器の重みを微調整する。
このような微調整は、画像分類よりも重い計算とGPUメモリコストのため、高密度な予測には実用的ではない。
本稿では,より困難な問題,すなわち大規模視覚変換器の高速化に着目し,追加のトレーニングや微調整を行わずに高密度な予測を行う。
高密度予測には高分解能表現が必要であることから,トークン数を減らすトークンクラスタリング層とトークン数を増やすトークン再構成層という2つの非パラメトリック演算子を提案する。
これを達成するための手順は以下の通りである。
i) トークンクラスタリング層を用いて、隣接するトークンをクラスタリングし、空間構造を維持するための低解像度表現をもたらす。
(II) 以下の変圧器層をこれらの低解像度表現やクラスタ化トークンにのみ適用する。
3) トークン再構成層を用いて, 精細化した低解像度表現から高解像度表現を再生成する。
提案手法は,オブジェクト検出,意味セグメンテーション,汎視セグメンテーション,インスタンスセグメンテーション,深さ推定の5つの密集した予測タスクにおいて有望である。
関連論文リスト
- Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。
我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-07-20T11:30:12Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。