論文の概要: SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation
- arxiv url: http://arxiv.org/abs/2507.12857v2
- Date: Tue, 29 Jul 2025 04:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.3683
- Title: SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation
- Title(参考訳): SCORE: オープン語彙リモートセンシングインスタンスセグメンテーションにおけるシーンコンテキスト
- Authors: Shiqi Huang, Shuting He, Huaiyuan Qin, Bihan Wen,
- Abstract要約: リモートセンシングインスタンスセグメンテーションのためのオープン語彙学習を導入する。
我々は、$textbfS$cene $textbfC$ontext matters in $textbfO$pen-vocabulary $textbfRE$mote インスタンスセグメンテーションを提案する。
提案手法は,大規模かつ現実的な地理空間解析のためのロバストなソリューションであるSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 21.428492178304392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing remote sensing instance segmentation approaches are designed for close-vocabulary prediction, limiting their ability to recognize novel categories or generalize across datasets. This restricts their applicability in diverse Earth observation scenarios. To address this, we introduce open-vocabulary (OV) learning for remote sensing instance segmentation. While current OV segmentation models perform well on natural image datasets, their direct application to remote sensing faces challenges such as diverse landscapes, seasonal variations, and the presence of small or ambiguous objects in aerial imagery. To overcome these challenges, we propose $\textbf{SCORE}$ ($\textbf{S}$cene $\textbf{C}$ontext matters in $\textbf{O}$pen-vocabulary $\textbf{RE}$mote sensing instance segmentation), a framework that integrates multi-granularity scene context, i.e., regional context and global context, to enhance both visual and textual representations. Specifically, we introduce Region-Aware Integration, which refines class embeddings with regional context to improve object distinguishability. Additionally, we propose Global Context Adaptation, which enriches naive text embeddings with remote sensing global context, creating a more adaptable and expressive linguistic latent space for the classifier. We establish new benchmarks for OV remote sensing instance segmentation across diverse datasets. Experimental results demonstrate that, our proposed method achieves SOTA performance, which provides a robust solution for large-scale, real-world geospatial analysis. Our code is available at https://github.com/HuangShiqi128/SCORE.
- Abstract(参考訳): 既存のリモートセンシングインスタンスセグメンテーションアプローチは、クローズボキャブラリ予測のために設計されており、新しいカテゴリを認識したり、データセットをまたいだ一般化を制限している。
これにより、様々な地球観測シナリオにおける適用性が制限される。
これを解決するために、リモートセンシングインスタンスセグメンテーションのためのオープン語彙学習(OV)を導入する。
現在のOVセグメンテーションモデルは、自然画像データセットでよく機能するが、リモートセンシングへの直接的な適用は、多様な風景、季節変動、空中画像における小さなまたはあいまいな物体の存在といった課題に直面している。
これらの課題を克服するために、我々は、複数の粒度シーンコンテキスト、すなわち地域コンテキストとグローバルコンテキストを統合するフレームワークである、$\textbf{S}$cene $\textbf{C}$ontext matters in $\textbf{O}$pen-vocabulary $\textbf{RE}$mote Senceptor instance segmentationを提案する。
具体的には、オブジェクトの識別性を改善するために、クラス埋め込みを地域コンテキストで洗練するRegional-Aware Integrationを紹介する。
さらに,感性のあるテキスト埋め込みをリモートセンシングのグローバルコンテキストに拡張し,より適応的で表現力豊かな言語潜在空間を創出するグローバルコンテキスト適応を提案する。
我々は多様なデータセットにわたるOVリモートセンシングインスタンスセグメンテーションのための新しいベンチマークを構築した。
実験の結果,提案手法は大規模かつ実世界の地理空間解析のための堅牢なソリューションであるSOTA性能を実現する。
私たちのコードはhttps://github.com/HuangShiqi128/SCOREで公開されています。
関連論文リスト
- Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation [14.82606425343802]
Open-vocabulary Scene Graph Generation (OV-SGG)は、視覚的関係表現とオープンな語彙的テキスト表現を整合させることにより、クローズドセットの仮定の限界を克服する。
既存のOV-SGG法は、固定されたテキスト表現によって制約され、画像テキストアライメントの多様性と精度が制限される。
本稿では,対象物と地域固有の関係情報を統合することでテキスト表現を向上させるRAHP(Relation-Aware Hierarchical Prompting)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T02:12:37Z) - ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。
我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。
我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T11:00:56Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。