論文の概要: Dynamic Token-Pass Transformers for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.01944v1
- Date: Thu, 3 Aug 2023 06:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:02:49.205068
- Title: Dynamic Token-Pass Transformers for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのための動的トークンパストランス
- Authors: Yuang Liu, Qiang Zhou, Jing Wang, Fan Wang, Jun Wang, Wei Zhang
- Abstract要約: セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
- 参考スコア(独自算出の注目度): 22.673910995773262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViT) usually extract features via forwarding all the
tokens in the self-attention layers from top to toe. In this paper, we
introduce dynamic token-pass vision transformers (DoViT) for semantic
segmentation, which can adaptively reduce the inference cost for images with
different complexity. DoViT gradually stops partial easy tokens from
self-attention calculation and keeps the hard tokens forwarding until meeting
the stopping criteria. We employ lightweight auxiliary heads to make the
token-pass decision and divide the tokens into keeping/stopping parts. With a
token separate calculation, the self-attention layers are speeded up with
sparse tokens and still work friendly with hardware. A token reconstruction
module is built to collect and reset the grouped tokens to their original
position in the sequence, which is necessary to predict correct semantic masks.
We conduct extensive experiments on two common semantic segmentation tasks, and
demonstrate that our method greatly reduces about 40% $\sim$ 60% FLOPs and the
drop of mIoU is within 0.8% for various segmentation transformers. The
throughput and inference speed of ViT-L/B are increased to more than 2$\times$
on Cityscapes.
- Abstract(参考訳): 視覚変換器(ViT)は通常、トップからつま先までの自己保持層内のすべてのトークンを転送することで特徴を抽出する。
本稿では,意味的セグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を提案する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
我々は,トークンパス決定を行うための軽量補助ヘッドを採用し,トークンを保持/停止部分に分割する。
トークンを別々に計算することで、自己注意層はスパーストークンでスピードアップされ、ハードウェアと相性がよい。
トークン再構成モジュールは、グループ化されたトークンを、正しいセマンティックマスクを予測するために必要なシーケンス内の元の位置にリセットするために構築される。
我々は2つの共通セグメンテーションタスクについて広範な実験を行い、この手法が約40%$\sim$ 60% FLOPsを削減し、mIoUの減少は様々なセグメンテーション変換器の0.8%以内であることを示した。
ViT-L/Bのスループットと推論速度は、Cityscapesで2$\times$以上になる。
関連論文リスト
- LookupViT: Compressing visual information to a limited number of tokens [36.83826969693139]
ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。
しかし、それらの推論コストは、トークン数の複雑さに悩まされる各レイヤにおける自己注意を計算するため、多くの設定で禁止される可能性がある。
本研究では、この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
論文 参考訳(メタデータ) (2024-07-17T17:22:43Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer [63.99222215387881]
本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-08-03T09:56:07Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。