論文の概要: Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2308.01045v1
- Date: Wed, 2 Aug 2023 09:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:31:34.264652
- Title: Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation
- Title(参考訳): セマンティクスセグメンテーションのためのプレーンビジョントランスフォーマにおける動的トークンプルーニング
- Authors: Quan Tang, Bowen Zhang, Jiajun Liu, Fagiu Liu, Yifan Liu
- Abstract要約: 本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
- 参考スコア(独自算出の注目度): 10.295945111343102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision transformers have achieved leading performance on various visual tasks
yet still suffer from high computational complexity. The situation deteriorates
in dense prediction tasks like semantic segmentation, as high-resolution inputs
and outputs usually imply more tokens involved in computations. Directly
removing the less attentive tokens has been discussed for the image
classification task but can not be extended to semantic segmentation since a
dense prediction is required for every patch. To this end, this work introduces
a Dynamic Token Pruning (DToP) method based on the early exit of tokens for
semantic segmentation. Motivated by the coarse-to-fine segmentation process by
humans, we naturally split the widely adopted auxiliary-loss-based network
architecture into several stages, where each auxiliary block grades every
token's difficulty level. We can finalize the prediction of easy tokens in
advance without completing the entire forward pass. Moreover, we keep $k$
highest confidence tokens for each semantic category to uphold the
representative context information. Thus, computational complexity will change
with the difficulty of the input, akin to the way humans do segmentation.
Experiments suggest that the proposed DToP architecture reduces on average
$20\% - 35\%$ of computational cost for current semantic segmentation methods
based on plain vision transformers without accuracy degradation.
- Abstract(参考訳): 視覚トランスフォーマーは様々な視覚タスクで主要な性能を達成しているが、それでも高い計算複雑性に苦しんでいる。
セマンティクスセグメンテーションのような密集した予測タスクでは、高分解能の入力や出力が計算に関わるトークンを多く含んでいるため、状況は悪化する。
イメージ分類タスクでは、より注意の少ないトークンを直接削除することが議論されているが、パッチ毎に密な予測が必要となるため、セマンティックセグメンテーションに拡張することはできない。
この目的のために、セマンティックセグメンテーションのためのトークンの早期終了に基づく動的トークンプルーニング(DToP)手法を導入する。
そこで我々は,広く採用されている補助ロスネットワークアーキテクチャをいくつかの段階に分け,各補助ブロックがトークンの難易度をランク付けする。
前方通過を完了させることなく,前もって簡単なトークンの予測を確定することができる。
さらに、各セマンティクスカテゴリに対して、最も高い信頼度トークンをk$にして、代表的コンテキスト情報を保持する。
したがって、計算の複雑さは、人間のセグメンテーションのように、入力の難易度によって変化する。
提案するdtopアーキテクチャは,現在のセマンティクスセグメンテーション法における計算コストの平均20-% - 35-%を,精度劣化のないプレーンビジョントランスフォーマに基づいて削減することを提案している。
関連論文リスト
- SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z) - Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文 参考訳(メタデータ) (2022-10-03T15:49:48Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - A Simple Baseline for Semi-supervised Semantic Segmentation with Strong
Data Augmentation [74.8791451327354]
セマンティックセグメンテーションのためのシンプルで効果的な半教師付き学習フレームワークを提案する。
単純な設計とトレーニングのテクニックのセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。
本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2021-04-15T06:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。