論文の概要: RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.08772v2
- Date: Wed, 11 Jun 2025 16:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.079637
- Title: RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation
- Title(参考訳): RS-MTDF : リモートセンシングセミスーパービジョンセマンティックセマンティックセグメンテーションのための多教師蒸留と核融合
- Authors: Jiayi Song, Kaiyu Li, Xiangyong Cao, Deyu Meng,
- Abstract要約: 本稿では,リモートセンシングにおける半教師付き学習を指導する新しいフレームワークであるRS-MTDF(Multi-Teacher Distillation and Fusion)を紹介する。
RS-MTDFは、複数の凍結したビジョン・ファンデーション・モデル(VFM)を専門教師として採用し、特徴レベルの蒸留を利用して生徒の特徴を堅牢な表現と整合させる。
提案手法は,LoveDAにおけるラベル比率の異なる既存手法よりも優れており,セマンティックカテゴリの大部分においてIoUが最も高い。
- 参考スコア(独自算出の注目度): 43.991262005295596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation in remote sensing images is crucial for various applications, yet its performance is heavily reliant on large-scale, high-quality pixel-wise annotations, which are notoriously expensive and time-consuming to acquire. Semi-supervised semantic segmentation (SSS) offers a promising alternative to mitigate this data dependency. However, existing SSS methods often struggle with the inherent distribution mismatch between limited labeled data and abundant unlabeled data, leading to suboptimal generalization. To alleviate this issue, we attempt to introduce the Vision Foundation Models (VFMs) pre-trained on vast and diverse datasets into the SSS task since VFMs possess robust generalization capabilities that can effectively bridge this distribution gap and provide strong semantic priors for SSS. Inspired by this, we introduce RS-MTDF (Multi-Teacher Distillation and Fusion), a novel framework that leverages the powerful semantic knowledge embedded in VFMs to guide semi-supervised learning in remote sensing. Specifically, RS-MTDF employs multiple frozen VFMs (e.g., DINOv2 and CLIP) as expert teachers, utilizing feature-level distillation to align student features with their robust representations. To further enhance discriminative power, the distilled knowledge is seamlessly fused into the student decoder. Extensive experiments on three challenging remote sensing datasets demonstrate that RS-MTDF consistently achieves state-of-the-art performance. Notably, our method outperforms existing approaches across various label ratios on LoveDA and secures the highest IoU in the majority of semantic categories. These results underscore the efficacy of multi-teacher VFM guidance in significantly enhancing both generalization and semantic understanding for remote sensing segmentation. Ablation studies further validate the contribution of each proposed module.
- Abstract(参考訳): リモートセンシング画像のセマンティックセグメンテーションは様々なアプリケーションに不可欠であるが、その性能は大規模で高品質なアノテーションに大きく依存している。
半教師付きセマンティックセグメンテーション(SSS)はこのデータ依存を緩和する有望な代替手段を提供する。
しかし、既存のSSS法は、制限付きラベル付きデータと豊富なラベルなしデータとの固有分布ミスマッチに苦しむことが多く、最適化の準一般化につながる。
この問題を軽減するため、我々は、VFMが分散ギャップを効果的に橋渡しし、SSSの強力なセマンティック先行を提供する堅牢な一般化能力を持っているため、広範囲で多様なデータセットで事前訓練されたビジョンファウンデーションモデル(VFM)をSSSタスクに導入しようと試みる。
このことに触発されたRS-MTDF(Multi-Teacher Distillation and Fusion)は、VFMに埋め込まれた強力なセマンティック知識を活用し、リモートセンシングにおける半教師付き学習を指導する新しいフレームワークである。
具体的には、RS-MTDFは、複数の凍結VFM(例えば、DINOv2、CLIP)を専門教師として使用し、特徴レベルの蒸留を利用して、生徒の特徴を堅牢な表現と整合させる。
さらに差別力を高めるために、蒸留した知識を学生復号器にシームレスに融合させる。
3つの挑戦的なリモートセンシングデータセットに関する大規模な実験は、RS-MTDFが常に最先端のパフォーマンスを達成することを示す。
特に,本手法は,LoveDAにおけるラベル比率の異なる既存手法よりも優れており,セマンティックカテゴリの大部分でIoUが最も高い。
これらの結果は,リモートセンシングセグメンテーションにおける一般化と意味理解の両面において,マルチ教師によるVFM指導の有効性を裏付けるものである。
アブレーション研究は、提案された各モジュールの寄与をさらに検証する。
関連論文リスト
- SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation [24.914583619821585]
超高解像度(UHR)衛星画像のセマンティックセグメンテーションのための新しいフレームワークFを紹介する。
提案手法は, セマンティックリオーダーと再サンプリングに基づくデータ拡張戦略と並行して, マルチスケールの収穫手法を組み込むことにより, ロングテールクラス分布に対処する。
URUR, GID, FBPデータセットを用いた実験では,mIoUが3.33%, 0.66%, 0.98%向上し, 最先端性能が得られた。
論文 参考訳(メタデータ) (2025-04-28T14:39:59Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization [2.1682783789464968]
きめ細かいアクション認識(FAR)は、短い時間内に詳細なセマンティックラベルに焦点を当てる。
ラベルのアノテートコストと微調整 LLM に必要なデータ量を考えると,半教師付き学習(SSL)の導入を提案する。
当社のフレームワークであるSeFARには,これらの課題に対処するための革新的な設計がいくつか含まれています。
論文 参考訳(メタデータ) (2025-01-02T13:12:12Z) - DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning [1.9472493183927981]
本稿では,DAAL(Dedentity-Aware Adaptive Margin Loss)と呼ばれる新しい損失関数を提案する。
DAALは、各クラス内の適応サブクラスタの形成を奨励しながら、埋め込みの密度分布を保存する。
ベンチマークによるきめ細かいデータセットの実験は、DAALの優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-07T19:04:24Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data [27.63411386396492]
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
論文 参考訳(メタデータ) (2023-05-24T09:03:18Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。