論文の概要: SatBLIP: Context Understanding and Feature Identification from Satellite Imagery with Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2604.14373v2
- Date: Fri, 17 Apr 2026 02:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.382721
- Title: SatBLIP: Context Understanding and Feature Identification from Satellite Imagery with Vision-Language Learning
- Title(参考訳): SatBLIP:視覚言語学習による衛星画像からの文脈理解と特徴同定
- Authors: Xue Wu, Shengting Cao, Shenglin Li, Jiaqi Gong,
- Abstract要約: そこで我々は,田園部における文脈理解と特徴識別のための視覚言語フレームワークであるSatBLIPを提案する。
SatBLIPは、事前のリモートセンシングパイプラインハンドクラフト機能、手動の仮想監査、および自然なイメージ訓練されたVLMの制限に対処する。
我々は、GPT-4oを用いて衛星タイルの構造記述を生成し、衛星適応BLIPモデルを微調整し、未知の画像のキャプションを生成する。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rural environmental risks are shaped by place-based conditions (e.g., housing quality, road access, land-surface patterns), yet standard vulnerability indices are coarse and provide limited insight into risk contexts. We propose SatBLIP, a satellite-specific vision-language framework for rural context understanding and feature identification that predicts county-level Social Vulnerability Index (SVI). SatBLIP addresses limitations of prior remote sensing pipelines-handcrafted features, manual virtual audits, and natural-image-trained VLMs-by coupling contrastive image-text alignment with bootstrapped captioning tailored to satellite semantics. We use GPT-4o to generate structured descriptions of satellite tiles (roof type/condition, house size, yard attributes, greenery, and road context), then fine-tune a satellite-adapted BLIP model to generate captions for unseen images. Captions are encoded with CLIP and fused with LLM-derived embeddings via attention for SVI estimation under spatial aggregation. Using SHAP, we identify salient attributes (e.g., roof form/condition, street width, vegetation, cars/open space) that consistently drive robust predictions, enabling interpretable mapping of rural risk environments.
- Abstract(参考訳): 農村環境のリスクは、場所ベースの状況(住宅品質、道路アクセス、土地表面パターンなど)によって形成されるが、標準的な脆弱性指標は粗く、リスクコンテキストに関する限られた洞察を与える。
そこで我々は,SatBLIPを提案する。SatBLIPは,郡レベルの社会的脆弱性指数(SVI)を予測する田園部コンテキスト理解と特徴識別のための,衛星固有の視覚言語フレームワークである。
SatBLIPは、衛星セマンティクスに合わせたブートストラップ付きキャプションとコントラッシブな画像テキストアライメントによる、リモートセンシングパイプラインの手作業機能、手動バーチャル監査、および自然なイメージトレーニングされたVLMの制限に対処する。
GPT-4oを用いて、衛星タイルの構造的記述(屋根タイプ/条件、住宅サイズ、庭属性、緑化、道路状況)を生成し、衛星適応BLIPモデルを微調整して、見えない画像のキャプションを生成する。
キャプションはCLIPでエンコードされ、空間凝集下でのSVI推定のためにLLM由来の埋め込みで融合される。
SHAPを用いて、常に堅牢な予測を駆動し、農村のリスク環境の解釈可能なマッピングを可能にする、健全な属性(例えば、屋根形式/条件、道路幅、植生、車/オープンスペース)を識別する。
関連論文リスト
- Vision-Language Feature Alignment for Road Anomaly Segmentation [38.2615882515309]
本稿では,事前学習された視覚言語モデル(VLM)のセマンティクスを組み込んだ視覚言語異常セグメンテーションフレームワークを提案する。
具体的には,Mask2Formeの視覚的特徴を既知のカテゴリのCLIPテキスト埋め込みに適応させる,素早い学習駆動アライメントモジュールを設計する。
推論時に,テキスト誘導類似性,CLIPに基づく画像テキスト類似性,検出信頼度を統合したマルチソース推論戦略を導入する。
論文 参考訳(メタデータ) (2026-03-01T10:17:00Z) - EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。
衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文 参考訳(メタデータ) (2025-12-09T18:15:43Z) - DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP [26.827036116024914]
textscCoPatchはゼロショットRISフレームワークで、テキストと画像の両方の空間表現を強化する。
また,textscCoPatchは, RefCOCO, RefCOCO+, RefCOCOg, PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間接地を,追加の訓練を必要とせずに大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-27T04:12:10Z) - SenCLIP: Enhancing zero-shot land-use mapping for Sentinel-2 with ground-level prompting [9.263651699452996]
SenCLIPは、ヨーロッパ各地のジオタグ付き地上画像と組み合わせた大量のSentinel-2画像のデータセットを利用して、CLIPをSentinel-2画像に転送する。
地上レベルの画像と衛星画像との整合性を示すアプローチでは,両方のプロンプトスタイルの分類精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-12-11T16:52:14Z) - LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty [6.986230616834552]
本稿では,新しい確率的マッピングアルゴリズムであるlatntBKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
LatentBKIは、人気のMatterport3DとSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価されている。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-15T17:02:32Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Context-self contrastive pretraining for crop type semantic segmentation [39.81074867563505]
提案したContext-Self Contrastive Loss (CSCL)は、セマンティックバウンダリをポップアップさせる埋め込み空間を学習する。
衛星画像時系列(SITS)からの作物型セマンティックセマンティックセグメンテーションでは,サテライト境界における性能が重要なボトルネックとなる。
より粒度の高い作物のクラスを得るための超解像における意味的セグメンテーションのプロセスを提案する。
論文 参考訳(メタデータ) (2021-04-09T11:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。