論文の概要: Decouple and Rectify: Semantics-Preserving Structural Enhancement for Open-Vocabulary Remote Sensing Segmentation
- arxiv url: http://arxiv.org/abs/2604.02010v1
- Date: Thu, 02 Apr 2026 13:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.805647
- Title: Decouple and Rectify: Semantics-Preserving Structural Enhancement for Open-Vocabulary Remote Sensing Segmentation
- Title(参考訳): 復号化・復号化:オープンボキャブラリリモートセンシングセグメンテーションのためのセマンティックス保存構造強化
- Authors: Jie Feng, Fengze Li, Junpeng Zhang, Siyu Chen, Yuping Liang, Junying Chen, Ronghua Shang,
- Abstract要約: リモートセンシング(RS)分野におけるオープンボキャブラリセマンティックセマンティックセマンティックセマンティクスは、言語対応認識と細粒度空間デライン化の両方を必要とする。
最近の手法は、RS-pretrained DINO特徴を導入して、これを補おうとしている。
本稿では, DR-Segを提案する。
- 参考スコア(独自算出の注目度): 23.298715255853782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation in the remote sensing (RS) field requires both language-aligned recognition and fine-grained spatial delineation. Although CLIP offers robust semantic generalization, its global-aligned visual representations inherently struggle to capture structural details. Recent methods attempt to compensate for this by introducing RS-pretrained DINO features. However, these methods treat CLIP representations as a monolithic semantic space and cannot localize where structural enhancement is required, failing to effectively delineate boundaries while risking the disruption of CLIP's semantic integrity. To address this limitation, we propose DR-Seg, a novel decouple-and-rectify framework in this paper. Our method is motivated by the key observation that CLIP feature channels exhibit distinct functional heterogeneity rather than forming a uniform semantic space. Building on this insight, DR-Seg decouples CLIP features into semantics-dominated and structure-dominated subspaces, enabling targeted structural enhancement by DINO without distorting language-aligned semantics. Subsequently, a prior-driven graph rectification module injects high-fidelity structural priors under DINO guidance to form a refined branch, while an uncertainty-guided adaptive fusion module dynamically integrates this refined branch with the original CLIP branch for final prediction. Comprehensive experiments across eight benchmarks demonstrate that DR-Seg establishes a new state-of-the-art.
- Abstract(参考訳): リモートセンシング(RS)分野におけるオープンボキャブラリセマンティックセマンティックセマンティックセマンティクスは、言語対応認識と細粒度空間デライン化の両方を必要とする。
CLIPは堅牢なセマンティック・ジェネリゼーションを提供するが、そのグローバル・アラインな視覚表現は本質的に構造的詳細を捉えるのに苦労している。
最近の手法は、RS-pretrained DINO特徴を導入して、これを補おうとしている。
しかし、これらのメソッドはCLIP表現をモノリシックなセマンティック空間として扱い、構造的拡張が必要な場所をローカライズできない。
この制限に対処するため,我々はDR-Segを提案する。
この手法は,CLIPの特徴チャネルが一様意味空間を形成するのではなく,機能的不均一性を示すというキーとなる観察に動機付けられている。
この洞察に基づいて、DR-SegはCLIP機能をセマンティクスと構造を支配下に置くサブスペースに分離する。
その後、事前駆動グラフ修正モジュールは、DINOガイダンスの下で高忠実度構造前駆体を注入して洗練された分岐を形成する一方、不確実性誘導適応核融合モジュールは、最終的な予測のために、この洗練された分岐を元のCLIPブランチと動的に統合する。
8つのベンチマークにわたる総合的な実験は、DR-Segが新しい最先端技術を確立していることを示している。
関連論文リスト
- TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Structure-Aware Feature Rectification with Region Adjacency Graphs for Training-Free Open-Vocabulary Semantic Segmentation [22.409969687852506]
画像から直接派生したインスタンス固有の事前情報を組み込んだ構造認識機能修正手法を提案する。
本手法は,セグメンテーションノイズを効果的に抑制し,領域レベルの整合性を向上し,複数の開語彙セグメンテーションベンチマークにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2025-12-08T10:00:36Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [7.353998772647553]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。