論文の概要: UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2410.10777v1
- Date: Mon, 14 Oct 2024 17:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:44:46.612310
- Title: UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation
- Title(参考訳): UniMatch V2: 半スーパービジョンセマンティックセグメンテーションの限界を押し上げる
- Authors: Lihe Yang, Zhen Zhao, Hengshuang Zhao,
- Abstract要約: 半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習することを目的としている。
アップグレードされ、単純化されたUniMatch V2を示し、V1から弱い一貫性のコアスピリットを継承する。
- 参考スコア(独自算出の注目度): 26.91063423376469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised semantic segmentation (SSS) aims at learning rich visual knowledge from cheap unlabeled images to enhance semantic segmentation capability. Among recent works, UniMatch improves its precedents tremendously by amplifying the practice of weak-to-strong consistency regularization. Subsequent works typically follow similar pipelines and propose various delicate designs. Despite the achieved progress, strangely, even in this flourishing era of numerous powerful vision models, almost all SSS works are still sticking to 1) using outdated ResNet encoders with small-scale ImageNet-1K pre-training, and 2) evaluation on simple Pascal and Cityscapes datasets. In this work, we argue that, it is necessary to switch the baseline of SSS from ResNet-based encoders to more capable ViT-based encoders (e.g., DINOv2) that are pre-trained on massive data. A simple update on the encoder (even using 2x fewer parameters) can bring more significant improvement than careful method designs. Built on this competitive baseline, we present our upgraded and simplified UniMatch V2, inheriting the core spirit of weak-to-strong consistency from V1, but requiring less training cost and providing consistently better results. Additionally, witnessing the gradually saturated performance on Pascal and Cityscapes, we appeal that we should focus on more challenging benchmarks with complex taxonomy, such as ADE20K and COCO datasets. Code, models, and logs of all reported values, are available at https://github.com/LiheYoung/UniMatch-V2.
- Abstract(参考訳): 半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習し、セマンティックセグメンテーション能力を高めることを目的としている。
最近の研究の中で、UniMatchは、弱い一貫性の規則化の実践を増幅することによって、その先例を大幅に改善している。
その後の作品は一般的に同様のパイプラインを踏襲し、様々な繊細な設計を提案する。
達成された進歩にもかかわらず、奇妙なことに、多くの強力なビジョンモデルが栄えたこの時代にも、ほとんど全てのSSS作品が今も続いている。
1) 小型ImageNet-1K事前学習による時代遅れResNetエンコーダの使用
2)単純なPascalおよびCityscapesデータセットの評価
本研究では,SSS のベースラインを ResNet ベースのエンコーダから,より有能な ViT ベースのエンコーダ (例えば DINOv2) に切り替える必要があることを論じる。
エンコーダの簡単なアップデート(2倍のパラメータを使用しても)は、注意深いメソッド設計よりも大幅に改善される可能性がある。
この競合するベースライン上に構築されたUniMatch V2は、V1から弱い一貫性という中核的な精神を継承するが、トレーニングコストの削減と、一貫してより良い結果を提供する。
さらに、PascalやCityscapesで徐々に飽和しているパフォーマンスを見て、ADE20KやCOCOデータセットのような複雑な分類学でより難しいベンチマークに注力すべきだとアピールします。
すべての報告された値のコード、モデル、ログはhttps://github.com/LiheYoung/UniMatch-V2.comで入手できる。
関連論文リスト
- Simplifying DINO via Coding Rate Regularization [74.88963795406733]
DINOとDINOv2は、大規模にラベル付けされていない画像データから表現を学ぶために広く使われている2つのモデルファミリーである。
この研究は、設計原則をシンプルにすることで、ディープラーニングの実証的な実践を改善する可能性を強調します。
論文 参考訳(メタデータ) (2025-02-14T18:58:04Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic
Segmentation [27.831267434546024]
Wevisit the weak-to-strong consistency framework popular by FixMatch from semi-supervised classification。
本稿では,補助的特徴摂動流を補足として提案し,拡張された摂動空間を創出する。
我々のUnified Dual-Stream Perturbationsアプローチ(UniMatch)は、すべての評価プロトコルで既存のメソッドをはるかに上回っています。
論文 参考訳(メタデータ) (2022-08-21T15:32:43Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive
Benchmark Study [100.27567794045045]
ディープグラフニューラルネットワーク(GNN)のトレーニングは、非常に難しい。
我々は、深層GNNの「トリック」を評価するための最初の公正かつ再現可能なベンチマークを示す。
論文 参考訳(メタデータ) (2021-08-24T05:00:37Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。