論文の概要: Knowledge Transfer and Domain Adaptation for Fine-Grained Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2412.06664v1
- Date: Mon, 09 Dec 2024 17:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:22.724538
- Title: Knowledge Transfer and Domain Adaptation for Fine-Grained Remote Sensing Image Segmentation
- Title(参考訳): 細粒度リモートセンシング画像分割のための知識伝達と領域適応
- Authors: Shun Zhang, Xuechao Zou, Kai Li, Congyan Lang, Shiying Wang, Pin Tao, Tengfei Cao,
- Abstract要約: そこで本研究では,知識指導とドメイン改良を組み合わせたエンド・ツー・エンドの学習パラダイムを導入し,性能向上を図る。
FAM(Feature Alignment Module)とFMM(FeatureModulation Module)の2つの重要なコンポーネントを提示する。
2つのデータセットの実験により、草のデータセットでは2.57 mIoU、クラウドデータセットでは3.73 mIoUの大幅な改善が達成された。
- 参考スコア(独自算出の注目度): 11.268182306510802
- License:
- Abstract: Fine-grained remote sensing image segmentation is essential for accurately identifying detailed objects in remote sensing images. Recently, vision transformer models (VTM) pretrained on large-scale datasets have shown strong zero-shot generalization, indicating that they have learned the general knowledge of object understanding. We introduce a novel end-to-end learning paradigm combining knowledge guidance with domain refinement to enhance performance. We present two key components: the Feature Alignment Module (FAM) and the Feature Modulation Module (FMM). FAM aligns features from a CNN-based backbone with those from the pretrained VTM's encoder using channel transformation and spatial interpolation, and transfers knowledge via KL divergence and L2 normalization constraint. FMM further adapts the knowledge to the specific domain to address domain shift. We also introduce a fine-grained grass segmentation dataset and demonstrate, through experiments on two datasets, that our method achieves a significant improvement of 2.57 mIoU on the grass dataset and 3.73 mIoU on the cloud dataset. The results highlight the potential of combining knowledge transfer and domain adaptation to overcome domain-related challenges and data limitations. The project page is available at https://xavierjiezou.github.io/KTDA/.
- Abstract(参考訳): リモートセンシング画像の詳細なオブジェクトを正確に識別するためには,微細なリモートセンシング画像セグメンテーションが不可欠である。
近年、大規模データセット上で事前訓練された視覚トランスフォーマーモデル(VTM)は、強いゼロショットの一般化を示し、オブジェクト理解の一般的な知識を習得したことを示している。
そこで本研究では,知識指導とドメイン改良を組み合わせたエンド・ツー・エンドの学習パラダイムを導入し,性能向上を図る。
本稿では,FAM (Feature Alignment Module) とFMM (Feature Modulation Module) の2つの重要なコンポーネントについて述べる。
FAMは、チャネル変換と空間補間を使用して、事前訓練されたVTMエンコーダの機能とCNNベースのバックボーンの特徴を一致させ、KL発散とL2正規化制約を介して知識を伝達する。
FMMはさらに知識を特定のドメインに適応させ、ドメインシフトに対処する。
また、粒度の細かい草のセグメンテーションデータセットを導入し、2つのデータセットの実験を通して、草のデータセットで2.57 mIoU、クラウドデータセットで3.73 mIoUの大幅な改善を実現していることを示す。
この結果は、知識伝達とドメイン適応を組み合わせることで、ドメイン関連の課題やデータ制限を克服する可能性を浮き彫りにしている。
プロジェクトページはhttps://xavierjiezou.github.io/KTDA/で公開されている。
関連論文リスト
- SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [13.549403813487022]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付けされたソースドメインデータを活用しながら、ラベル付けされていないターゲットドメインデータからモデルを学習することを可能にする。
対照的な学習を UDA に統合し,対象領域における意味情報を捕捉するモデルの能力を高めることを提案する。
我々の手法であるSimSegは既存の手法より優れ、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-10-17T11:59:39Z) - Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2024-03-15T03:58:17Z) - Compositional Semantic Mix for Domain Adaptation in Point Cloud
Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。
本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T14:43:36Z) - MDViT: Multi-domain Vision Transformer for Small Medical Image Segmentation Datasets [19.44142290594537]
医用画像セグメンテーション(MIS)を改善するための有望なソリューションとして、ビジョントランスフォーマー(ViT)が登場した。
ViTは通常、単一のデータソースを使用してトレーニングされ、他の利用可能なデータセットから活用できる貴重な知識を見落としている。
本稿では,データハンガーを緩和し,NKTと戦うドメインアダプタを含む,最初のマルチドメイン ViT である MDViT を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:19:29Z) - Source-Free Domain Adaptation for RGB-D Semantic Segmentation with
Vision Transformers [11.13182313760599]
MultImodal Source-Free Information fusion Transformer - ソースフリーセマンティックセマンティックセグメンテーションのための奥行き認識フレームワーク。
我々のフレームワークは、RGB-D視覚変換器をソースフリーセマンティックセグメンテーションに利用する最初のアプローチであり、顕著な性能向上を示している。
論文 参考訳(メタデータ) (2023-05-23T17:20:47Z) - Fake it, Mix it, Segment it: Bridging the Domain Gap Between Lidar
Sensors [0.966840768820136]
ライダーセグメンテーションのための最高のニューラルネットワークは、特定のデータセットに微調整される。
新しいセンサーから注釈付きデータのセットを 再トレーニングせずにライダーセンサーを切り替えると ドメインシフトが発生する
そこで我々は,注釈付きパノプティカル・ライダー・データセットを用いて,異なるライダー・センサの構造に記録されたシーンを再現するライダー・ドメイン適応法を提案する。
論文 参考訳(メタデータ) (2022-12-19T14:57:13Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。