論文の概要: Vision-Language Model Purified Semi-Supervised Semantic Segmentation for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2602.00202v1
- Date: Fri, 30 Jan 2026 12:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.050511
- Title: Vision-Language Model Purified Semi-Supervised Semantic Segmentation for Remote Sensing Images
- Title(参考訳): リモートセンシング画像のための視覚言語モデルによる半スーパービジョンセマンティックセマンティックセグメンテーション
- Authors: Shanwen Wang, Xin Sun, Danfeng Hong, Fei Zhou,
- Abstract要約: リモートセンシング(RS)領域におけるS4問題に対処するために,視覚制御モデル(VLM)を導入した新しいSemiEarthモデルを提案する。
具体的には、教師ネットワークの擬似ラベルを浄化するために、VLM擬似ラベル浄化(VLM-PP)構造を考案し、大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 22.366285954926237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The semi-supervised semantic segmentation (S4) can learn rich visual knowledge from low-cost unlabeled images. However, traditional S4 architectures all face the challenge of low-quality pseudo-labels, especially for the teacher-student framework.We propose a novel SemiEarth model that introduces vision-language models (VLMs) to address the S4 issues for the remote sensing (RS) domain. Specifically, we invent a VLM pseudo-label purifying (VLM-PP) structure to purify the teacher network's pseudo-labels, achieving substantial improvements. Especially in multi-class boundary regions of RS images, the VLM-PP module can significantly improve the quality of pseudo-labels generated by the teacher, thereby correctly guiding the student model's learning. Moreover, since VLM-PP equips VLMs with open-world capabilities and is independent of the S4 architecture, it can correct mispredicted categories in low-confidence pseudo-labels whenever a discrepancy arises between its prediction and the pseudo-label. We conducted extensive experiments on multiple RS datasets, which demonstrate that our SemiEarth achieves SOTA performance. More importantly, unlike previous SOTA RS S4 methods, our model not only achieves excellent performance but also offers good interpretability. The code is released at https://github.com/wangshanwen001/SemiEarth.
- Abstract(参考訳): 半教師付きセマンティックセグメンテーション(S4)は、低コストの未ラベル画像から豊富な視覚知識を学習することができる。
しかし,従来のS4アーキテクチャでは,低品質な擬似ラベル,特に教師-学生フレームワークの課題に直面しており,リモートセンシング(RS)ドメインのS4問題に対処するための視覚言語モデル(VLM)を導入した新しいセミアースモデルを提案する。
具体的には、教師ネットワークの擬似ラベルを浄化するために、VLM擬似ラベル浄化(VLM-PP)構造を考案し、大幅な改善を実現した。
特に、RS画像のマルチクラス境界領域において、VLM-PPモジュールは教師が生成した擬似ラベルの品質を大幅に向上させ、学生モデルの学習を正しく導くことができる。
さらに、VLM-PPは、VLMにオープンワールド機能を備え、S4アーキテクチャとは独立しているため、予測と擬似ラベルの相違が生じても、低信頼の擬似ラベルの誤予測カテゴリを補正することができる。
我々は複数のRSデータセットに対して広範囲に実験を行い、SemiEarthがSOTAの性能を達成できることを実証した。
さらに重要なことは、従来のSOTA RS S4メソッドとは異なり、我々のモデルは優れた性能を達成するだけでなく、優れた解釈性も提供します。
コードはhttps://github.com/wangshanwen001/SemiEarth.comで公開されている。
関連論文リスト
- DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning [53.36809572236361]
少数のサンプルしか持たない新しいカテゴリーに一般化することを目的としている。
最近のアプローチでは、クラス名から派生したセマンティックな埋め込みで視覚表現を豊かにするために、大きな言語モデルが組み込まれている。
強化学習ゲーティング(DVLA-RL)を用いたデュアルレベル視覚言語アライメントを提案する。
論文 参考訳(メタデータ) (2026-01-31T16:09:37Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - CerraData-4MM: A multimodal benchmark dataset on Cerrado for land use and land cover classification [5.503948543987285]
CerraData-4MMは、Sentinel-1 Synthetic Aperture Radar (SAR)とSentinel-2 MultiSpectral Imagery (MSI)を組み合わせたデータセットである。
データセットには、それぞれ7クラスと14クラスからなる2つの階層的な分類レベルが含まれており、多様なBico do Papagaio eco Regionに焦点を当てている。
我々は、標準的なU-Netとより洗練されたビジョントランスフォーマー(ViT)モデルを評価することにより、高度なセマンティックセグメンテーション手法をベンチマークするCerraData-4MMの能力を強調した。
論文 参考訳(メタデータ) (2025-01-31T15:57:17Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。
我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。
実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文 参考訳(メタデータ) (2024-06-18T10:34:28Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Creating Ensembles of Classifiers through UMDA for Aerial Scene Classification [0.8049701904919515]
リモートセンシング領域では、CNNアーキテクチャを代替ソリューションとして使用することもシーン分類タスクの現実である。
本研究は,6つのDML手法を空撮シーン分類タスクに適用し,その動作を4種類の事前学習CNNを用いて解析することを提案する。
実験では、従来の訓練済みCNNと比較して、DMLアプローチよりも優れた分類結果が得られる。
論文 参考訳(メタデータ) (2023-03-20T18:49:39Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。