論文の概要: Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation
- arxiv url: http://arxiv.org/abs/2210.17400v1
- Date: Mon, 31 Oct 2022 15:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:52:40.364233
- Title: Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation
- Title(参考訳): Vision Transformers を用いた Max Pooling は弱教師付きセマンティックセグメンテーションにおけるクラスと形状を調整する
- Authors: Simone Rossetti (1 and 2), Damiano Zappia (1), Marta Sanzari (2),
Marco Schaerf (1 and 2), Fiora Pirri (1 and 2) ((1) DeepPlants, (2) DIAG
Sapienza)
- Abstract要約: 本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly Supervised Semantic Segmentation (WSSS) research has explored many
directions to improve the typical pipeline CNN plus class activation maps (CAM)
plus refinements, given the image-class label as the only supervision. Though
the gap with the fully supervised methods is reduced, further abating the
spread seems unlikely within this framework. On the other hand, WSSS methods
based on Vision Transformers (ViT) have not yet explored valid alternatives to
CAM. ViT features have been shown to retain a scene layout, and object
boundaries in self-supervised learning. To confirm these findings, we prove
that the advantages of transformers in self-supervised methods are further
strengthened by Global Max Pooling (GMP), which can leverage patch features to
negotiate pixel-label probability with class probability. This work proposes a
new WSSS method dubbed ViT-PCM (ViT Patch-Class Mapping), not based on CAM. The
end-to-end presented network learns with a single optimization process, refined
shape and proper localization for segmentation masks. Our model outperforms the
state-of-the-art on baseline pseudo-masks (BPM), where we achieve $69.3\%$ mIoU
on PascalVOC 2012 $val$ set. We show that our approach has the least set of
parameters, though obtaining higher accuracy than all other approaches. In a
sentence, quantitative and qualitative results of our method reveal that
ViT-PCM is an excellent alternative to CNN-CAM based architectures.
- Abstract(参考訳): Wakly Supervised Semantic Segmentation (WSSS) 研究は、典型的なパイプラインCNNとクラスアクティベーションマップ(CAM)と改善のための多くの方向を探索してきた。
完全に教師された手法とのギャップは減るが、このフレームワーク内では、さらなる拡散が不可能に思える。
一方、ビジョントランスフォーマー(ViT)に基づくWSSS手法は、CAMの有効な代替手段をまだ検討していない。
ViTの機能はシーンレイアウトを保ち、オブジェクト境界は自己教師型学習で保持されている。
これらの事実を確認するために,自己教師法におけるトランスフォーマーの利点は,パッチ機能を利用してクラス確率で画素ラベル確率を交渉できるグローバルマックスプーリング(gmp)によってさらに強化されていることを証明した。
本研究は,CAMをベースとしない新しいWSSS手法であるViT-PCM(ViT Patch-Class Mapping)を提案する。
エンドツーエンドのネットワークは、単一の最適化プロセス、洗練された形状、セグメンテーションマスクの適切なローカライゼーションで学習する。
私たちのモデルはベースラインの擬似マスク(bpm)の最先端を上回っており、pascalvoc 2012 $val$ setで69.3\%$ miouを達成しています。
提案手法は,他の手法よりも精度は高いものの,パラメータが最小であることが判明した。
文中では,VT-PCMがCNN-CAMアーキテクチャの優れた代替品であることを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - WeakTr: Exploring Plain Vision Transformer for Weakly-supervised
Semantic Segmentation [32.16796174578446]
本稿では、弱教師付きセマンティック(WSSS)のためのプレーンビジョン変換器(ViT)の特性について検討する。
我々はこの平易なTransformerベースのWeakly教師付き学習フレームワークをWeakTrと名付けた。
標準的なベンチマークでは、PASCAL VOC 2012のvalセットでは78.4% mIoU、COCO 2014のvalセットでは50.3% mIoUである。
論文 参考訳(メタデータ) (2023-04-03T17:54:10Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - Weakly Supervised Semantic Segmentation via Progressive Patch Learning [39.87150496277798]
分類の局所的詳細抽出を改善するために「プログレッシブ・パッチ・ラーニング」アプローチを提案する。
は、機能マップをパッチに分解し、最終的なアグリゲーションの前に各ローカルパッチを独立して処理する。
プログレッシブ・パッチ・ラーニング(Progressive Patch Learning)は、特徴の破壊とパッチ・ラーニングをさらにプログレッシブな方法で多段階の粒度に拡張する。
論文 参考訳(メタデータ) (2022-09-16T09:54:17Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。