論文の概要: Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation
- arxiv url: http://arxiv.org/abs/2504.05774v1
- Date: Tue, 08 Apr 2025 07:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 23:32:31.779052
- Title: Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation
- Title(参考訳): 転送可能なマスク変換器:領域適応転送可能性推定を用いたクロスドメインセマンティックセマンティックセマンティックセグメンテーション
- Authors: Enming Zhang, Zhengyu Li, Yanru Wu, Jingge Wang, Yang Tan, Ruizhe Zhao, Guan Wang, Yang Li,
- Abstract要約: Transferable Mask Transformer (TMT) はセマンティックセグメンテーションのための新しい領域レベルの適応フレームワークである。
TMTは空間伝達可能性解析を通じてクロスドメイン表現を整列する。
TMTは、バニラファインチューニングよりも平均2%MIoU改善を達成し、最先端のベースラインに比べて1.28%向上した。
- 参考スコア(独自算出の注目度): 6.355831653594172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision Transformers (ViTs) have set new benchmarks in semantic segmentation. However, when adapting pretrained ViTs to new target domains, significant performance degradation often occurs due to distribution shifts, resulting in suboptimal global attention. Since self-attention mechanisms are inherently data-driven, they may fail to effectively attend to key objects when source and target domains exhibit differences in texture, scale, or object co-occurrence patterns. While global and patch-level domain adaptation methods provide partial solutions, region-level adaptation with dynamically shaped regions is crucial due to spatial heterogeneity in transferability across different image areas. We present Transferable Mask Transformer (TMT), a novel region-level adaptation framework for semantic segmentation that aligns cross-domain representations through spatial transferability analysis. TMT consists of two key components: (1) An Adaptive Cluster-based Transferability Estimator (ACTE) that dynamically segments images into structurally and semantically coherent regions for localized transferability assessment, and (2) A Transferable Masked Attention (TMA) module that integrates region-specific transferability maps into ViTs' attention mechanisms, prioritizing adaptation in regions with low transferability and high semantic uncertainty. Comprehensive evaluations across 20 cross-domain pairs demonstrate TMT's superiority, achieving an average 2% MIoU improvement over vanilla fine-tuning and a 1.28% increase compared to state-of-the-art baselines. The source code will be publicly available.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)の最近の進歩は、セマンティックセグメンテーションの新しいベンチマークを設定している。
しかし、トレーニング済みのViTを新しいターゲットドメインに適応させると、分布シフトによって大きな性能低下が生じ、世界規模で注目される。
自己認識機構は本質的にデータ駆動であるため、ソースドメインとターゲットドメインがテクスチャ、スケール、オブジェクト共起パターンの違いを示す場合、キーオブジェクトに効果的に対応できない可能性がある。
大域的およびパッチレベルの領域適応法は部分解を提供するが、異なる画像領域間での転送性の空間的不均一性のため、動的形状の領域への領域適応は不可欠である。
本研究では,空間伝達可能性解析による領域間表現の整合性を考慮したセマンティックセグメンテーションのための領域レベル適応フレームワークであるTransferable Mask Transformer (TMT)を提案する。
TMTは,(1)適応クラスタベースの転送可能性推定器(ACTE)と(2)領域固有の転送可能性マップをViTの注意機構に統合し,低転送性と高いセマンティック不確実性を有する領域への適応を優先する転送性マスケインテンション(TMA)モジュールから構成される。
20個のドメインをまたいだ総合的な評価は、TMTの優位性を示し、バニラファインチューニングよりも平均2%のMIoU改善を実現し、最先端のベースラインに比べて1.28%向上した。
ソースコードは公開されます。
関連論文リスト
- TransAdapter: Vision Transformer for Feature-Centric Unsupervised Domain Adaptation [0.3277163122167433]
Unsupervised Domain Adaptation (UDA)は、ソースドメインのラベル付きデータを使用して、ラベルなしのターゲットドメインのタスクを解決することを目的としている。
従来のCNNベースの手法は、複雑なドメイン関係を完全に捉えるのに苦労している。
3つの鍵モジュールを持つSwin Transformerを利用する新しいUDA手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T11:11:39Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer
via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。
1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-06-30T07:32:23Z) - Smoothing Matters: Momentum Transformer for Domain Adaptive Semantic
Segmentation [48.7190017311309]
ドメイン適応型セマンティックセグメンテーションに局所的なViTを直接適用しても、期待できる改善は得られない。
これらの高周波成分は、局所的な ViT のトレーニングを極めて平滑なものにし、その伝達性を損なう。
本稿では,ローパスフィルタリング機構である運動量ネットワークを導入し,対象領域の特徴や擬似ラベルの学習ダイナミクスを円滑にする。
論文 参考訳(メタデータ) (2022-03-15T15:20:30Z) - Amplitude Spectrum Transformation for Open Compound Domain Adaptive
Semantic Segmentation [62.68759523116924]
オープン化合物ドメイン適応(OCDA)は、実用的な適応セットとして現れている。
我々は、新しい特徴空間振幅スペクトル変換(AST)を提案する。
論文 参考訳(メタデータ) (2022-02-09T05:40:34Z) - Domain Adaptive Semantic Segmentation with Regional Contrastive
Consistency Regularization [19.279884432843822]
本稿では,領域適応型セマンティックセマンティックセグメンテーションのための局所コントラスト整合正規化(RCCR)と呼ばれる,新しいエンドツーエンドのトレーニング可能なアプローチを提案する。
私たちの中核となる考え方は、異なる画像の同じ位置から抽出された類似の地域的特徴を取り除き、その一方、2つの画像の異なる位置から特徴を分離することです。
論文 参考訳(メタデータ) (2021-10-11T11:45:00Z) - Transformer-Based Source-Free Domain Adaptation [134.67078085569017]
本研究では,ソースフリードメイン適応(SFDA)の課題について検討する。
我々は、FDAの一般化モデルを学ぶためのTransformer(TransDA)という、汎用的で効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-28T23:06:26Z) - Cross-Domain Grouping and Alignment for Domain Adaptive Semantic
Segmentation [74.3349233035632]
深層畳み込みニューラルネットワーク(CNN)内のソースドメインとターゲットドメインにセマンティックセグメンテーションネットワークを適用する既存の技術は、対象ドメイン自身や推定カテゴリ内のクラス間変異を考慮していない。
学習可能なクラスタリングモジュールと、クロスドメイングルーピングとアライメントと呼ばれる新しいドメイン適応フレームワークを導入する。
本手法はセマンティクスセグメンテーションにおける適応性能を一貫して向上させ,様々なドメイン適応設定において最先端を上回っている。
論文 参考訳(メタデータ) (2020-12-15T11:36:21Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。