論文の概要: MetaSegNet: Metadata-collaborative Vision-Language Representation
Learning for Semantic Segmentation of Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2312.12735v1
- Date: Wed, 20 Dec 2023 03:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:04:54.277598
- Title: MetaSegNet: Metadata-collaborative Vision-Language Representation
Learning for Semantic Segmentation of Remote Sensing Images
- Title(参考訳): metasegnet: リモートセンシング画像の意味セグメンテーションのためのメタデータ協調視覚言語表現学習
- Authors: Libo Wang and Sijun Dong and Ying Chen and Xiaoliang Meng and Shenghui
Fang
- Abstract要約: リモートセンシング画像の意味的セグメンテーションのためのメタデータ協調型マルチモーダルセグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出し,画像とテキストのインタラクションを適用する。
- 参考スコア(独自算出の注目度): 8.028440412883901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of remote sensing images plays a vital role in a wide
range of Earth Observation (EO) applications, such as land use land cover
mapping, environment monitoring, and sustainable development. Driven by rapid
developments in Artificial Intelligence (AI), deep learning (DL) has emerged as
the mainstream tool for semantic segmentation and achieved many breakthroughs
in the field of remote sensing. However, the existing DL-based methods mainly
focus on unimodal visual data while ignoring the rich multimodal information
involved in the real world, usually demonstrating weak reliability and
generlization. Inspired by the success of Vision Transformers and large
language models, we propose a novel metadata-collaborative multimodal
segmentation network (MetaSegNet) that applies vision-language representation
learning for semantic segmentation of remote sensing images. Unlike the common
model structure that only uses unimodal visual data, we extract the key
characteristic (i.e. the climate zone) from freely available remote sensing
image metadata and transfer it into knowledge-based text prompts via the
generic ChatGPT. Then, we construct an image encoder, a text encoder and a
crossmodal attention fusion subnetwork to extract the image and text feature
and apply image-text interaction. Benefiting from such a design, the proposed
MetaSegNet demonstrates superior generalization and achieves competitive
accuracy with state-of-the-art semantic segmentation methods on the large-scale
OpenEarthMap dataset (68.6% mIoU) and Potsdam dataset (93.3% mean F1 score) as
well as LoveDA dataset (52.2% mIoU).
- Abstract(参考訳): リモートセンシング画像のセマンティックセグメンテーションは、土地利用土地被覆マッピング、環境モニタリング、持続可能な開発など、幅広い地球観測(EO)応用において重要な役割を担っている。
人工知能(AI)の急速な発展によって、ディープラーニング(DL)がセマンティックセグメンテーションの主流となり、リモートセンシングの分野で多くのブレークスルーを達成した。
しかし、既存のDLベースの手法は、現実の世界に関わる豊富なマルチモーダル情報を無視しながら、単調な視覚データに重点を置いている。
視覚トランスフォーマーと大規模言語モデルの成功に触発されて,視覚言語表現学習をリモートセンシング画像の意味セグメンテーションに適用するメタデータ協調マルチモーダルセグメンテーションネットワーク(metasegnet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、利用可能なリモートセンシング画像メタデータから重要な特徴(気候帯)を抽出し、汎用的なChatGPTを介して知識ベースのテキストプロンプトに転送する。
そして、画像エンコーダ、テキストエンコーダ、およびクロスモーダルアテンション融合サブネットワークを構築し、画像とテキストの特徴を抽出し、画像とテキストの相互作用を適用する。
このような設計により、提案されたMetaSegNetは優れた一般化を示し、大規模OpenEarthMapデータセット(68.6% mIoU)とPotsdamデータセット(93.3%はF1スコア)とLoveDAデータセット(52.2% mIoU)の最先端セマンティックセマンティックセマンティックセグメンテーション手法との競合精度を達成する。
関連論文リスト
- ChatEarthNet: A Global-Scale Image-Text Dataset Empowering
Vision-Language Geo-Foundation Models [26.583783910846723]
ChatEarthNetは、グローバルカバレッジ、高品質、広範囲の多様性、詳細な説明を特徴とする大規模な画像テキストデータセットである。
ChatEarthNetは、ChatGPT-3.5で生成されたキャプション付き163,488のイメージテキストペアと、ChatGPT-4Vで生成されたキャプション付き1万のイメージテキストペアで構成される。
論文 参考訳(メタデータ) (2024-02-17T16:38:40Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image
Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。