論文の概要: Observing Health Outcomes Using Remote Sensing Imagery and Geo-Context Guided Visual Transformer
- arxiv url: http://arxiv.org/abs/2602.00110v1
- Date: Mon, 26 Jan 2026 22:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.945205
- Title: Observing Health Outcomes Using Remote Sensing Imagery and Geo-Context Guided Visual Transformer
- Title(参考訳): リモートセンシング画像とジオコンテキスト誘導型視覚変換器を用いた健康状態の観察
- Authors: Yu Li, Guilherme N. DeSouza, Praveen Rao, Chi-Ren Shyu,
- Abstract要約: 本稿では,地理空間情報からの誘導によりリモートセンシング画像処理を向上する新しいモデルを提案する。
本手法では,多様な地理空間データを画像パッチと空間的に整合した埋め込みパッチに変換する地理空間埋め込み機構を導入する。
提案手法は,既存の地理空間基盤モデルより病気の流行予測に優れることを示す。
- 参考スコア(独自算出の注目度): 8.825339734603862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual transformers have driven major progress in remote sensing image analysis, particularly in object detection and segmentation. Recent vision-language and multimodal models further extend these capabilities by incorporating auxiliary information, including captions, question and answer pairs, and metadata, which broadens applications beyond conventional computer vision tasks. However, these models are typically optimized for semantic alignment between visual and textual content rather than geospatial understanding, and therefore are not suited for representing or reasoning with structured geospatial layers. In this study, we propose a novel model that enhances remote sensing imagery processing with guidance from auxiliary geospatial information. Our approach introduces a geospatial embedding mechanism that transforms diverse geospatial data into embedding patches that are spatially aligned with image patches. To facilitate cross-modal interaction, we design a guided attention module that dynamically integrates multimodal information by computing attention weights based on correlations with auxiliary data, thereby directing the model toward the most relevant regions. In addition, the module assigns distinct roles to individual attention heads, allowing the model to capture complementary aspects of the guidance information and improving the interpretability of its predictions. Experimental results demonstrate that the proposed framework outperforms existing pretrained geospatial foundation models in predicting disease prevalence, highlighting its effectiveness in multimodal geospatial understanding.
- Abstract(参考訳): 視覚変換器は、特に物体の検出とセグメンテーションにおいて、リモートセンシング画像解析に大きな進歩をもたらした。
最近の視覚言語とマルチモーダルモデルは、キャプション、質問と回答のペア、メタデータなどの補助情報を組み込むことでこれらの能力をさらに拡張し、従来のコンピュータビジョンタスクを超えてアプリケーションを広げる。
しかし、これらのモデルは通常、地理空間的理解よりも視覚的内容とテキスト的内容のセマンティックアライメントに最適化されているため、構造化された地理空間的層による表現や推論には適していない。
本研究では,地理空間情報からの誘導によるリモートセンシング画像処理を向上する新しいモデルを提案する。
本手法では,多様な地理空間データを画像パッチと空間的に整合した埋め込みパッチに変換する地理空間埋め込み機構を導入する。
相互モーダル間相互作用を容易にするため,補助データとの相関関係に基づいて注目重みを計算し,マルチモーダル情報を動的に統合するガイド付きアテンションモジュールを設計し,最も関連性の高い領域に向けてモデルを誘導する。
さらに、モジュールは個別のアテンションヘッドに異なる役割を割り当て、モデルがガイダンス情報の補完的な側面を捉え、予測の解釈性を向上させる。
実験により,本フレームワークは, 既存の地理空間基盤モデルより, 病気の有病率を予測する上で優れており, マルチモーダル地理空間理解におけるその有効性を強調している。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - A Sensor Agnostic Domain Generalization Framework for Leveraging Geospatial Foundation Models: Enhancing Semantic Segmentation viaSynergistic Pseudo-Labeling and Generative Learning [5.299218284699214]
高性能セグメンテーションモデルは、センサ、照明、地理のアノテーション不足と可変性によって挑戦されている。
本稿では,ソフトアライメント擬似ラベルとソース・ツー・ターゲット生成事前学習を組み合わせることで,新しい地理空間基盤モデルを活用するための領域一般化手法を提案する。
ハイパースペクトルおよびマルチスペクトルリモートセンシングデータセットを用いた実験により、適応性とセグメンテーションを向上させる方法の有効性が確認された。
論文 参考訳(メタデータ) (2025-05-02T19:52:02Z) - Interactive dense pixel visualizations for time series and model attribution explanations [8.24039921933289]
DAVOTSは、生の時系列データ、ニューラルネットワークのアクティベーション、高密度ピクセル可視化における属性を探索する、インタラクティブなビジュアル分析アプローチである。
可視化されたデータドメインにクラスタリングアプローチを適用し、グループをハイライトし、個々のデータ探索と組み合わせたデータ探索のための順序付け戦略を示す。
論文 参考訳(メタデータ) (2024-08-27T14:02:21Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。