論文の概要: Exploring Token-Level Augmentation in Vision Transformer for Semi-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.02459v2
- Date: Mon, 10 Mar 2025 12:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:43.012984
- Title: Exploring Token-Level Augmentation in Vision Transformer for Semi-Supervised Semantic Segmentation
- Title(参考訳): 半教師付きセマンティックセグメンテーションのための視覚変換器におけるToken-Level Augmentationの探索
- Authors: Dengke Zhang, Quan Tang, Fagui Liu, Haiqing Mei, C. L. Philip Chen,
- Abstract要約: TokenMixは、視覚変換器を用いた半教師付きセマンティックセマンティックセグメンテーションのために特別に設計されたデータ拡張技術である。
本稿では,各ブランチが入力画像に画像と特徴拡張を適用したデュアルブランチフレームワークを提案する。
提案手法は, 精度が顕著に向上し, 最先端のアルゴリズムよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 47.36641636596741
- License:
- Abstract: Semi-supervised semantic segmentation has witnessed remarkable advancements in recent years. However, existing algorithms are based on convolutional neural networks and directly applying them to Vision Transformers poses certain limitations due to conceptual disparities. To this end, we propose TokenMix, a data augmentation technique specifically designed for semi-supervised semantic segmentation with Vision Transformers. TokenMix aligns well with the global attention mechanism by mixing images at the token level, enhancing learning capability for contextual information among image patches. We further incorporate image augmentation and feature augmentation to promote the diversity of augmentation. Moreover, to enhance consistency regularization, we propose a dual-branch framework where each branch applies image and feature augmentation to the input image. We conduct extensive experiments across multiple benchmark datasets, including Pascal VOC 2012, Cityscapes, and COCO. Results suggest that the proposed method outperforms state-of-the-art algorithms with notably observed accuracy improvement, especially under limited fine annotations.
- Abstract(参考訳): 半教師付きセマンティックセグメンテーションは近年顕著な進歩を遂げている。
しかし、既存のアルゴリズムは畳み込みニューラルネットワークに基づいており、Vision Transformersに直接適用することで、概念的な相違による一定の制限が生じる。
そこで本研究では,視覚変換器を用いた半教師付きセマンティックセグメンテーションのためのデータ拡張手法であるTokenMixを提案する。
TokenMixは、トークンレベルで画像を混在させ、画像パッチ間のコンテキスト情報の学習能力を向上することで、グローバルアテンションメカニズムとよく一致している。
さらに,画像強調と特徴増強を取り入れて,拡張の多様性を促進する。
さらに、整合性正則化を強化するために、各ブランチが入力画像に画像と特徴を付加するデュアルブランチフレームワークを提案する。
私たちはPascal VOC 2012、Cityscapes、COCOなど、複数のベンチマークデータセットにわたる広範な実験を行います。
提案手法は,特に限定的な微妙なアノテーションの下で,顕著な精度向上を達成し,最先端のアルゴリズムよりも優れていたことが示唆された。
関連論文リスト
- A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Masked Image Modeling with Denoising Contrast [30.31920660487222]
マスク付き画像モデリングは、視覚変換器の最先端性能でこの研究のラインを独占している。
画像内画像間のコントラスト制約を生成するための,新しい事前学習手法であるConMIMを導入する。
ConMIM-pretrained vision Transformer with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation task。
論文 参考訳(メタデータ) (2022-05-19T15:22:29Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z) - Unsupervised Bidirectional Cross-Modality Adaptation via Deeply
Synergistic Image and Feature Alignment for Medical Image Segmentation [73.84166499988443]
我々は、Synergistic Image and Feature Alignment (SIFA)と名付けられた新しい教師なしドメイン適応フレームワークを提案する。
提案するSIFAは、画像と特徴の両方の観点から、ドメインの相乗的アライメントを行う。
2つの異なるタスクに対する実験結果から,SIFA法は未ラベル対象画像のセグメンテーション性能を向上させるのに有効であることが示された。
論文 参考訳(メタデータ) (2020-02-06T13:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。