論文の概要: WeakTr: Exploring Plain Vision Transformer for Weakly-supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2304.01184v2
- Date: Thu, 27 Apr 2023 03:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:18:41.464562
- Title: WeakTr: Exploring Plain Vision Transformer for Weakly-supervised
Semantic Segmentation
- Title(参考訳): weaktr: 弱教師付き意味セグメンテーションのためのプレーンビジョントランスフォーマの検討
- Authors: Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin, Wenyu Liu,
Xinggang Wang
- Abstract要約: 本稿では、弱教師付きセマンティック(WSSS)のためのプレーンビジョン変換器(ViT)の特性について検討する。
我々はこの平易なTransformerベースのWeakly教師付き学習フレームワークをWeakTrと名付けた。
標準的なベンチマークでは、PASCAL VOC 2012のvalセットでは78.4% mIoU、COCO 2014のvalセットでは50.3% mIoUである。
- 参考スコア(独自算出の注目度): 32.16796174578446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the properties of the plain Vision Transformer (ViT) for
Weakly-supervised Semantic Segmentation (WSSS). The class activation map (CAM)
is of critical importance for understanding a classification network and
launching WSSS. We observe that different attention heads of ViT focus on
different image areas. Thus a novel weight-based method is proposed to
end-to-end estimate the importance of attention heads, while the self-attention
maps are adaptively fused for high-quality CAM results that tend to have more
complete objects. Besides, we propose a ViT-based gradient clipping decoder for
online retraining with the CAM results to complete the WSSS task. We name this
plain Transformer-based Weakly-supervised learning framework WeakTr. It
achieves the state-of-the-art WSSS performance on standard benchmarks, i.e.,
78.4% mIoU on the val set of PASCAL VOC 2012 and 50.3% mIoU on the val set of
COCO 2014. Code is available at https://github.com/hustvl/WeakTr.
- Abstract(参考訳): 本稿では,Wakly-supervised Semantic Segmentation (WSSS) のためのプレーンビジョン変換器 (ViT) の特性について検討する。
クラスアクティベーションマップ(CAM)は、分類ネットワークを理解してWSSSを起動する上で非常に重要である。
我々は、ViTの異なるアテンションヘッドが異なる画像領域に焦点を当てていることを観察する。
そこで, より完全な対象を持つ傾向のある高品質CAM結果に対して, 自己注意マップを適応的に融合させながら, 注目ヘッドの重要性をエンドツーエンドで推定する手法を提案する。
さらに,CAMの結果をオンラインリトレーニングしてWSSSタスクを完了するためのViTベースの勾配クリッピングデコーダを提案する。
我々はこの平易なTransformerベースのWeakly教師付き学習フレームワークをWeakTrと名付けた。
標準的なベンチマークでは、PASCAL VOC 2012のvalセットでは78.4% mIoU、COCO 2014のvalセットでは50.3% mIoUである。
コードはhttps://github.com/hustvl/WeakTr.comで入手できる。
関連論文リスト
- Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - TransCAM: Transformer Attention-based CAM Refinement for Weakly
Supervised Semantic Segmentation [19.333543299407832]
弱教師付きセマンティックセグメンテーションのための Conformer ベースのソリューション TransCAM を提案する。
PASCAL VOC 2012の検証とテストセットにおいて,TransCAMは69.3%,69.6%の新たな最先端性能を実現している。
論文 参考訳(メタデータ) (2022-03-14T16:17:18Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。