論文の概要: XeMap: Contextual Referring in Large-Scale Remote Sensing Environments
- arxiv url: http://arxiv.org/abs/2505.00738v1
- Date: Wed, 30 Apr 2025 02:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.759734
- Title: XeMap: Contextual Referring in Large-Scale Remote Sensing Environments
- Title(参考訳): XeMap: 大規模リモートセンシング環境でのコンテキスト参照
- Authors: Yuxi Li, Lu Si, Yujie Hou, Chengaung Liu, Bin Li, Hongjian Fang, Jun Zhang,
- Abstract要約: XeMapタスクは、大規模RSシーンにおけるテキスト参照領域のコンテキスト的、きめ細かいローカライゼーションに焦点を当てる。
XeMap-Networkは、RSにおけるピクセルレベルのクロスモーダルなコンテキスト参照マッピングの複雑さを扱う。
HMSAモジュールはテキスト意味ベクトルとマルチスケールの視覚的特徴を一致させ、正確なマルチモーダルマッチングを可能にする。
- 参考スコア(独自算出の注目度): 13.162347922111056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in remote sensing (RS) imagery have provided high-resolution detail and vast coverage, yet existing methods, such as image-level captioning/retrieval and object-level detection/segmentation, often fail to capture mid-scale semantic entities essential for interpreting large-scale scenes. To address this, we propose the conteXtual referring Map (XeMap) task, which focuses on contextual, fine-grained localization of text-referred regions in large-scale RS scenes. Unlike traditional approaches, XeMap enables precise mapping of mid-scale semantic entities that are often overlooked in image-level or object-level methods. To achieve this, we introduce XeMap-Network, a novel architecture designed to handle the complexities of pixel-level cross-modal contextual referring mapping in RS. The network includes a fusion layer that applies self- and cross-attention mechanisms to enhance the interaction between text and image embeddings. Furthermore, we propose a Hierarchical Multi-Scale Semantic Alignment (HMSA) module that aligns multiscale visual features with the text semantic vector, enabling precise multimodal matching across large-scale RS imagery. To support XeMap task, we provide a novel, annotated dataset, XeMap-set, specifically tailored for this task, overcoming the lack of XeMap datasets in RS imagery. XeMap-Network is evaluated in a zero-shot setting against state-of-the-art methods, demonstrating superior performance. This highlights its effectiveness in accurately mapping referring regions and providing valuable insights for interpreting large-scale RS environments.
- Abstract(参考訳): リモートセンシング(RS)画像の進歩は、高解像度の細部と広範囲のカバレッジを提供してきたが、画像レベルのキャプション/検索やオブジェクトレベルの検出/分離のような既存の手法は、大規模なシーンの解釈に不可欠な中規模セマンティックな実体を捉えるのに失敗することが多い。
そこで本研究では,大規模RSシーンにおけるテキスト参照領域の文脈的,きめ細かい局所化に着目したconteXtual Reference Map(XeMap)タスクを提案する。
従来のアプローチとは異なり、XeMapは画像レベルやオブジェクトレベルのメソッドでしばしば見過ごされる中規模のセマンティックエンティティの正確なマッピングを可能にする。
これを実現するために,我々は,RSにおける画素レベルのクロスモーダルなコンテキスト参照マッピングの複雑さを扱うために設計された,新しいアーキテクチャであるXeMap-Networkを紹介した。
このネットワークは、テキストと画像の埋め込みの間の相互作用を強化するために、自己および横断的なメカニズムを適用する融合層を含む。
さらに,HMSA (Hierarchical Multi-Scale Semantic Alignment) モジュールを提案する。
XeMapタスクをサポートするために、我々は新しい注釈付きデータセット、XeMap-setを提供し、特にこのタスクに適したもので、RSイメージにおけるXeMapデータセットの欠如を克服します。
XeMap-Networkは、最先端の手法に対してゼロショット設定で評価され、優れた性能を示す。
これは、参照領域を正確にマッピングし、大規模RS環境を解釈するための貴重な洞察を提供する効果を強調している。
関連論文リスト
- Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。
現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。
本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T10:19:11Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - ReFit: A Framework for Refinement of Weakly Supervised Semantic
Segmentation using Object Border Fitting for Medical Images [4.945138408504987]
Weakly Supervised Semantic (WSSS)は、画像レベルの監視のみに依存しているため、ネットワークの必要性に対処する上で有望なアプローチである。
本稿では,最新クラスのアクティベーションマップとポストプロセッシング手法を組み合わせたReFitフレームワークを提案する。
本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。
論文 参考訳(メタデータ) (2023-03-14T12:46:52Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。