論文の概要: Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2203.07988v1
- Date: Tue, 15 Mar 2022 15:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:49:43.830224
- Title: Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic
Segmentation
- Title(参考訳): Smoothing Matters: ドメイン適応セマンティックセマンティックセグメンテーションのためのMomentum Transformer
- Authors: Runfa Chen, Yu Rong, Shangmin Guo, Jiaqi Han, Fuchun Sun, Tingyang Xu,
Wenbing Huang
- Abstract要約: ドメイン適応型セマンティックセグメンテーションに局所的なViTを直接適用しても、期待できる改善は得られない。
これらの高周波成分は、局所的な ViT のトレーニングを極めて平滑なものにし、その伝達性を損なう。
本稿では,ローパスフィルタリング機構である運動量ネットワークを導入し,対象領域の特徴や擬似ラベルの学習ダイナミクスを円滑にする。
- 参考スコア(独自算出の注目度): 48.7190017311309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After the great success of Vision Transformer variants (ViTs) in computer
vision, it has also demonstrated great potential in domain adaptive semantic
segmentation. Unfortunately, straightforwardly applying local ViTs in domain
adaptive semantic segmentation does not bring in expected improvement. We find
that the pitfall of local ViTs is due to the severe high-frequency components
generated during both the pseudo-label construction and features alignment for
target domains. These high-frequency components make the training of local ViTs
very unsmooth and hurt their transferability. In this paper, we introduce a
low-pass filtering mechanism, momentum network, to smooth the learning dynamics
of target domain features and pseudo labels. Furthermore, we propose a dynamic
of discrepancy measurement to align the distributions in the source and target
domains via dynamic weights to evaluate the importance of the samples. After
tackling the above issues, extensive experiments on sim2real benchmarks show
that the proposed method outperforms the state-of-the-art methods. Our codes
are available at https://github.com/alpc91/TransDA
- Abstract(参考訳): コンピュータビジョンにおけるビジョントランスフォーマー変種(ViT)の大成功の後、ドメイン適応セマンティックセマンティックセグメンテーションにおいて大きな可能性を示した。
残念ながら、ドメイン適応セマンティックセグメンテーションにローカルなViTを直接適用しても、期待される改善は得られない。
局所的なVTの落とし穴は、擬似ラベル構成とターゲットドメインのアライメントの両方で発生する高周波数成分が原因であることが判明した。
これらの高周波成分は、局所的なViTのトレーニングを非常に平滑にし、転送性を傷つける。
本稿では,ローパスフィルタリング機構である運動量ネットワークを導入し,対象領域の特徴や擬似ラベルの学習ダイナミクスを円滑にする。
さらに,試料の重要度を評価するために,源領域と対象領域の分布を動的重み付けによって調整する動的不一致測定法を提案する。
上記の問題に取り組んだ後、sim2realベンチマークに関する広範囲な実験により、提案手法が最先端手法よりも優れていることが示された。
私たちのコードはhttps://github.com/alpc91/TransDAで利用可能です。
関連論文リスト
- Improving Source-Free Target Adaptation with Vision Transformers
Leveraging Domain Representation Images [8.626222763097335]
Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベル付きターゲットドメインへの知識転送を容易にする。
本稿では、キー、クエリ、値要素がViT結果にどのように影響するかを評価することから、ソースフリーなターゲット適応におけるViT性能を高める革新的な方法を提案する。
ドメイン表現画像(DRI)は、ドメイン固有のマーカーとして機能し、トレーニングレギュレータとシームレスにマージする。
論文 参考訳(メタデータ) (2023-11-21T13:26:13Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - Domain Adaptive Video Semantic Segmentation via Cross-Domain Moving
Object Mixing [15.823918683848877]
ソース・ドメイン・ビデオ・クリップにおいて、ハード・トゥ・トランスファー・クラスを含む複数のオブジェクトをカットするクロス・ドメイン移動オブジェクト・ミキシング(CMOM)を提案する。
画像レベルのドメイン適応とは異なり、時間的コンテキストは、動くオブジェクトを2つの異なるビデオに混ぜるために維持されるべきである。
さらに、ターゲット領域の特徴識別性を高めるために、時間的コンテキストによる特徴調整(FATC)を提案する。
論文 参考訳(メタデータ) (2022-11-04T08:10:33Z) - Threshold-adaptive Unsupervised Focal Loss for Domain Adaptation of
Semantic Segmentation [25.626882426111198]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は近年研究の注目を集めている。
本稿では,セマンティックセグメンテーションのための2段階エントロピーに基づくUDA手法を提案する。
本稿では,DeepLabV2を用いたSynTHIA-to-CityscapesとGTA5-to-Cityscapesにおける最先端の58.4%と59.6%のmIoUと,軽量BiSeNetを用いた競合性能を実現する。
論文 参考訳(メタデータ) (2022-08-23T03:48:48Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - Semi-Supervised Domain Adaptation via Adaptive and Progressive Feature
Alignment [32.77436219094282]
SSDASはラベル付きターゲットサンプルを、ラベル付きソースサンプルとラベルなしターゲットサンプルの間に適応的かつプログレッシブな特徴アライメントのためのアンカーとして採用している。
さらに、反復学習過程において、異種音源の特徴を高信頼目標特徴に置き換える。
広範な実験により、提案されたSSDASは、多くのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2021-06-05T09:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。