論文の概要: ConSept: Continual Semantic Segmentation via Adapter-based Vision
Transformer
- arxiv url: http://arxiv.org/abs/2402.16674v1
- Date: Mon, 26 Feb 2024 15:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:08:57.632163
- Title: ConSept: Continual Semantic Segmentation via Adapter-based Vision
Transformer
- Title(参考訳): Consept: Adapter-based Vision Transformer による連続的セマンティックセマンティックセグメンテーション
- Authors: Bowen Dong, Guanglei Yang, Wangmeng Zuo, Lei Zhang
- Abstract要約: 本稿では,AdapterベースのViT,すなわちConSeptを用いて連続的セマンティックベンチマークを提案する。
ConSeptは、軽量アテンションベースのアダプタをバニラViTに統合する。
提案手法は, 減数分裂防止のための蒸留法と, セグメンテーションマップの正則化のための二重ダイス損失の2つである。
- 参考スコア(独自算出の注目度): 65.32312196621938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we delve into the realm of vision transformers for continual
semantic segmentation, a problem that has not been sufficiently explored in
previous literature. Empirical investigations on the adaptation of existing
frameworks to vanilla ViT reveal that incorporating visual adapters into ViTs
or fine-tuning ViTs with distillation terms is advantageous for enhancing the
segmentation capability of novel classes. These findings motivate us to propose
Continual semantic Segmentation via Adapter-based ViT, namely ConSept. Within
the simplified architecture of ViT with linear segmentation head, ConSept
integrates lightweight attention-based adapters into vanilla ViTs. Capitalizing
on the feature adaptation abilities of these adapters, ConSept not only retains
superior segmentation ability for old classes, but also attains promising
segmentation quality for novel classes. To further harness the intrinsic
anti-catastrophic forgetting ability of ConSept and concurrently enhance the
segmentation capabilities for both old and new classes, we propose two key
strategies: distillation with a deterministic old-classes boundary for improved
anti-catastrophic forgetting, and dual dice losses to regularize segmentation
maps, thereby improving overall segmentation performance. Extensive experiments
show the effectiveness of ConSept on multiple continual semantic segmentation
benchmarks under overlapped or disjoint settings. Code will be publicly
available at \url{https://github.com/DongSky/ConSept}.
- Abstract(参考訳): 本稿では,従来の文献では十分に研究されていない問題である連続的セマンティックセグメンテーションのための視覚変換器の領域を探索する。
バニラVTへの既存のフレームワークの適応に関する実証的研究により、ViTにビジュアルアダプターを組み込んだり、蒸留条件で微調整VTを組み込むことは、新規クラスのセグメンテーション能力を高めるのに有利であることが判明した。
これらの知見は,Adapter ベースの ViT,すなわち ConSept による連続的セマンティックセグメンテーションを提案する動機となっている。
線形セグメンテーションヘッドを備えたViTの単純化されたアーキテクチャの中で、ConSeptは軽量アテンションベースのアダプタをバニラViTに統合する。
これらのアダプタの特徴適応能力を活用して、ConSeptは古いクラスで優れたセグメンテーション能力を保持するだけでなく、新しいクラスで有望なセグメンテーション品質を得る。
従来型および新クラスのセグメンテーション能力を同時に向上させ,ConSeptの本質的な抗破滅的忘れ込み能力をさらに活用するために, 抗破滅的忘れ込みを改善するための決定論的旧クラス境界による蒸留と, セグメンテーションマップの正規化における二重ダイス損失の2つの主要な戦略を提案する。
複数の連続的セマンティックセグメンテーションベンチマークにおけるConSeptの有効性は、重なり合うか不連続である。
コードは \url{https://github.com/DongSky/ConSept} で公開される。
関連論文リスト
- Upsampling DINOv2 features for unsupervised vision tasks and weakly supervised materials segmentation [0.0]
自己監督型視覚変換器(ViT)は、オブジェクトのローカライゼーションやセグメンテーションといった下流タスクに関連する強力な意味情報と位置情報を含んでいる。
最近の研究は、これらの機能をクラスタリングやグラフパーティショニング、リージョン相関といった従来の手法と組み合わせて、追加のネットワークを微調整したり訓練したりすることなく、印象的なベースラインを達成している。
論文 参考訳(メタデータ) (2024-10-20T13:01:53Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Representation Separation for Semantic Segmentation with Vision
Transformers [11.431694321563322]
イメージをパッチのシーケンスとして符号化するビジョントランスフォーマー(ViT)は、セマンティックセグメンテーションの新しいパラダイムをもたらす。
局所パッチレベルと大域領域レベルでの表現分離の効率的な枠組みをViTを用いたセマンティックセグメンテーションに適用する。
論文 参考訳(メタデータ) (2022-12-28T09:54:52Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic
Segmentation [48.7190017311309]
ドメイン適応型セマンティックセグメンテーションに局所的なViTを直接適用しても、期待できる改善は得られない。
これらの高周波成分は、局所的な ViT のトレーニングを極めて平滑なものにし、その伝達性を損なう。
本稿では,ローパスフィルタリング機構である運動量ネットワークを導入し,対象領域の特徴や擬似ラベルの学習ダイナミクスを円滑にする。
論文 参考訳(メタデータ) (2022-03-15T15:20:30Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。