Fugu-MT 論文翻訳(概要): MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images

論文の概要: MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images

arxiv url: http://arxiv.org/abs/2312.12735v1
Date: Wed, 20 Dec 2023 03:16:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 17:04:54.277598
Title: MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images
Title（参考訳）: metasegnet: リモートセンシング画像の意味セグメンテーションのためのメタデータ協調視覚言語表現学習
Authors: Libo Wang and Sijun Dong and Ying Chen and Xiaoliang Meng and Shenghui Fang
Abstract要約: リモートセンシング画像の意味的セグメンテーションのためのメタデータ協調型マルチモーダルセグメンテーションネットワーク(MetaSegNet)を提案する。一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出し,画像とテキストのインタラクションを適用する。
参考スコア（独自算出の注目度）: 8.028440412883901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic segmentation of remote sensing images plays a vital role in a wide range of Earth Observation (EO) applications, such as land use land cover mapping, environment monitoring, and sustainable development. Driven by rapid developments in Artificial Intelligence (AI), deep learning (DL) has emerged as the mainstream tool for semantic segmentation and achieved many breakthroughs in the field of remote sensing. However, the existing DL-based methods mainly focus on unimodal visual data while ignoring the rich multimodal information involved in the real world, usually demonstrating weak reliability and generlization. Inspired by the success of Vision Transformers and large language models, we propose a novel metadata-collaborative multimodal segmentation network (MetaSegNet) that applies vision-language representation learning for semantic segmentation of remote sensing images. Unlike the common model structure that only uses unimodal visual data, we extract the key characteristic (i.e. the climate zone) from freely available remote sensing image metadata and transfer it into knowledge-based text prompts via the generic ChatGPT. Then, we construct an image encoder, a text encoder and a crossmodal attention fusion subnetwork to extract the image and text feature and apply image-text interaction. Benefiting from such a design, the proposed MetaSegNet demonstrates superior generalization and achieves competitive accuracy with state-of-the-art semantic segmentation methods on the large-scale OpenEarthMap dataset (68.6% mIoU) and Potsdam dataset (93.3% mean F1 score) as well as LoveDA dataset (52.2% mIoU).
Abstract（参考訳）: リモートセンシング画像のセマンティックセグメンテーションは、土地利用土地被覆マッピング、環境モニタリング、持続可能な開発など、幅広い地球観測(EO)応用において重要な役割を担っている。人工知能(AI)の急速な発展によって、ディープラーニング(DL)がセマンティックセグメンテーションの主流となり、リモートセンシングの分野で多くのブレークスルーを達成した。しかし、既存のDLベースの手法は、現実の世界に関わる豊富なマルチモーダル情報を無視しながら、単調な視覚データに重点を置いている。視覚トランスフォーマーと大規模言語モデルの成功に触発されて,視覚言語表現学習をリモートセンシング画像の意味セグメンテーションに適用するメタデータ協調マルチモーダルセグメンテーションネットワーク(metasegnet)を提案する。一元的視覚データのみを使用する一般的なモデル構造とは異なり、利用可能なリモートセンシング画像メタデータから重要な特徴(気候帯)を抽出し、汎用的なChatGPTを介して知識ベースのテキストプロンプトに転送する。そして、画像エンコーダ、テキストエンコーダ、およびクロスモーダルアテンション融合サブネットワークを構築し、画像とテキストの特徴を抽出し、画像とテキストの相互作用を適用する。このような設計により、提案されたMetaSegNetは優れた一般化を示し、大規模OpenEarthMapデータセット(68.6% mIoU)とPotsdamデータセット(93.3%はF1スコア)とLoveDAデータセット(52.2% mIoU)の最先端セマンティックセマンティックセマンティックセグメンテーション手法との競合精度を達成する。

関連論文リスト

Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network [65.01521002836611]
本稿では,これらの制約を解決するために,並列で統一されたセグメンテーション・フレームワークであるクロスビューセマンティック・インタラクション・ネットワーク(CSINet)を提案する。関心の対象を観察する際の人間の行動によって動機づけられたネットワークは、遠隔および近距離からの視覚的手がかりを編成し、相乗的予測を行う。すべてのエンコーディングステージでは、Cross-View Window-attention Module(CVWin)を使用して、グローバルおよびローカルセマンティクスをクローズビューおよびリモートビューブランチ機能に補完する。
論文参考訳（メタデータ） (2025-08-02T11:57:56Z)
SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain Adaptation [0.5461938536945723]
リモートセマンティックセマンティックセグメンテーションのための新しい教師なしドメイン適応手法を提案する。提案するSegDesicNetモジュールは、単位球上に投影された座標のGRID位置符号化を遅らせ、ドメイン損失を得る。我々のアルゴリズムは,人工ニューラルネットワークと物理世界の人間の理解とのモデリング格差を減らそうとしている。
論文参考訳（メタデータ） (2025-03-11T11:01:18Z)
Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文参考訳（メタデータ） (2024-09-20T16:45:32Z)
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文参考訳（メタデータ） (2024-07-22T14:24:56Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文参考訳（メタデータ） (2023-12-20T09:19:48Z)
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文参考訳（メタデータ） (2023-12-12T03:39:07Z)
RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文参考訳（メタデータ） (2023-06-14T16:40:19Z)
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文参考訳（メタデータ） (2022-12-16T05:08:52Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。