論文の概要: Content-aware Token Sharing for Efficient Semantic Segmentation with
Vision Transformers
- arxiv url: http://arxiv.org/abs/2306.02095v1
- Date: Sat, 3 Jun 2023 12:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:15:31.455069
- Title: Content-aware Token Sharing for Efficient Semantic Segmentation with
Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた効率的な意味セグメンテーションのためのコンテンツ認識トークン共有
- Authors: Chenyang Lu, Daan de Geus, Gijs Dubbelman
- Abstract要約: 本稿では,意味的セグメンテーションネットワークの計算効率を向上させるトークン削減手法であるCTS(Content-Aware Token Sharing)を提案する。
我々は、イメージパッチが同じセマンティッククラスを含んでいるかどうかを予測し、もしそうであればトークンを共有できるように、クラスに依存しないポリシーネットワークを採用している。
Content-Aware Token Sharingでは、セグメンテーションの品質を低下させることなく、処理されたトークンの数を最大44%削減できます。
- 参考スコア(独自算出の注目度): 5.910159499687659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Content-aware Token Sharing (CTS), a token reduction
approach that improves the computational efficiency of semantic segmentation
networks that use Vision Transformers (ViTs). Existing works have proposed
token reduction approaches to improve the efficiency of ViT-based image
classification networks, but these methods are not directly applicable to
semantic segmentation, which we address in this work. We observe that, for
semantic segmentation, multiple image patches can share a token if they contain
the same semantic class, as they contain redundant information. Our approach
leverages this by employing an efficient, class-agnostic policy network that
predicts if image patches contain the same semantic class, and lets them share
a token if they do. With experiments, we explore the critical design choices of
CTS and show its effectiveness on the ADE20K, Pascal Context and Cityscapes
datasets, various ViT backbones, and different segmentation decoders. With
Content-aware Token Sharing, we are able to reduce the number of processed
tokens by up to 44%, without diminishing the segmentation quality.
- Abstract(参考訳): 本稿では、視覚変換器(ViT)を用いたセマンティックセグメンテーションネットワークの計算効率を向上させるトークン削減手法であるCTS(Content-Aware Token Sharing)を提案する。
既存の研究では,ViTに基づく画像分類ネットワークの効率向上のためにトークン削減手法が提案されているが,これらの手法はセマンティックセグメンテーションに直接適用されない。
セマンティックセグメンテーションでは,複数のイメージパッチが冗長な情報を含むため,同じセマンティッククラスを含む場合,トークンを共有することができる。
このアプローチでは,イメージパッチに同じセマンティッククラスが含まれているかどうかを予測し,トークンを共有可能にする,効率的でクラスに依存しないポリシネットワークを活用する。
実験により、CTSの重要な設計選択について検討し、ADE20K、Pascal Context、Cityscapesデータセット、様々なViTバックボーン、異なるセグメンテーションデコーダでの有効性を示す。
コンテンツ対応トークン共有により,セグメンテーション品質を低下させることなく,処理されたトークンの数を最大44%削減することができる。
関連論文リスト
- TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Multi-Scale Semantic Segmentation with Modified MBConv Blocks [29.026787888644474]
セマンティックセグメンテーションに適したMBConvブロックの新規適応を導入する。
これらの変更を実装することで、Cityscapesのテストおよび検証データセットにおいて、IoU(Intersection over Union)の84.5%と84.0%という印象的な平均値が得られる。
論文 参考訳(メタデータ) (2024-02-07T07:01:08Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Self-supervision through Random Segments with Autoregressive Coding
(RandSAC) [46.519302668058025]
様々なデザイン選択が視覚的特徴学習にそのようなトレーニング戦略を適用する成功にもたらす影響について検討する。
具体的には、自動回帰符号化(RandSAC)を用いたランダムセグメント(Random Segments)と呼ばれる新しい戦略を導入する。
RandSACでは、パッチ表現(画像トークン)を階層的に配置したセグメントにグループ化します。各セグメントでは、トークンはBERTに似ていますが、セグメント間の予測は、GPTに似ています。
セグメントのランダム化シリアライゼーションは、空間的長大(クロスセグメント)と短短短短(ウィスイン)の分布において、性能と結果を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-03-22T21:28:55Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。