論文の概要: GeoVision Labeler: Zero-Shot Geospatial Classification with Vision and Language Models
- arxiv url: http://arxiv.org/abs/2505.24340v1
- Date: Fri, 30 May 2025 08:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.849509
- Title: GeoVision Labeler: Zero-Shot Geospatial Classification with Vision and Language Models
- Title(参考訳): GeoVision Labeler:視覚と言語モデルを用いたゼロショット地理空間分類
- Authors: Gilles Quentin Hacheme, Girmaw Abebe Tadesse, Caleb Robinson, Akram Zaytar, Rahul Dodhia, Juan M. Lavista Ferres,
- Abstract要約: 厳密なゼロショット分類フレームワークであるGeoVision Labeler(GVL)を紹介する。
GVLはリッチで可読な画像記述を生成し、それをユーザ定義のクラスにマッピングする。
これは、SpaceNet v7のバイナリビルディング対ノービルディングタスクで最大93.2%のゼロショット精度を達成する。
- 参考スコア(独自算出の注目度): 3.5759681393339697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifying geospatial imagery remains a major bottleneck for applications such as disaster response and land-use monitoring-particularly in regions where annotated data is scarce or unavailable. Existing tools (e.g., RS-CLIP) that claim zero-shot classification capabilities for satellite imagery nonetheless rely on task-specific pretraining and adaptation to reach competitive performance. We introduce GeoVision Labeler (GVL), a strictly zero-shot classification framework: a vision Large Language Model (vLLM) generates rich, human-readable image descriptions, which are then mapped to user-defined classes by a conventional Large Language Model (LLM). This modular, and interpretable pipeline enables flexible image classification for a large range of use cases. We evaluated GVL across three benchmarks-SpaceNet v7, UC Merced, and RESISC45. It achieves up to 93.2% zero-shot accuracy on the binary Buildings vs. No Buildings task on SpaceNet v7. For complex multi-class classification tasks (UC Merced, RESISC45), we implemented a recursive LLM-driven clustering to form meta-classes at successive depths, followed by hierarchical classification-first resolving coarse groups, then finer distinctions-to deliver competitive zero-shot performance. GVL is open-sourced at https://github.com/microsoft/geo-vision-labeler to catalyze adoption in real-world geospatial workflows.
- Abstract(参考訳): 地理空間画像の分類は、特にアノテートされたデータが不足または利用できない地域では、災害対応や土地利用監視などのアプリケーションにおいて大きなボトルネックとなっている。
既存のツール(例:RS-CLIP)は、衛星画像のゼロショット分類能力を主張している。
視覚大言語モデル(vLLM)は、リッチで可読な画像記述を生成し、それを従来のLarge Language Model(LLM)によってユーザ定義のクラスにマッピングする。
このモジュール的で解釈可能なパイプラインは、幅広いユースケースに対して柔軟な画像分類を可能にする。
我々は、SpaceNet v7、UC Merced、RESISC45の3つのベンチマークでGVLを評価した。
これは、SpaceNet v7のバイナリビルディング対ノービルディングタスクで最大93.2%のゼロショット精度を達成する。
複雑な多クラス分類タスク (UC Merced, RESISC45) に対して, 逐次深度でメタクラスを形成する再帰的LCMクラスタリングを実装した。
GVLはhttps://github.com/microsoft/geo-vision-labelerでオープンソースとして公開されている。
関連論文リスト
- GraphVL: Graph-Enhanced Semantic Modeling via Vision-Language Models for Generalized Class Discovery [11.006059998223908]
一般化カテゴリー発見(GCD)における視覚言語モデリングの新しいアプローチであるGraphVLを紹介する。
グラフ畳み込みネットワーク(GCN)とCLIPのテキストエンコーダを統合し,クラス近傍構造を保存する。
ベンチマークデータセットの7つの実験は、CLIPバックボーンと統合した場合のGraphVLの優位性を一貫して示している。
論文 参考訳(メタデータ) (2024-11-04T13:26:15Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Enhancing Self-Supervised Learning for Remote Sensing with Elevation
Data: A Case Study with Scarce And High Level Semantic Labels [1.534667887016089]
本研究は、地球観測下流タスクに適用された事前学習モデルに対する、教師なしと教師なしのハイブリッド学習手法を提案する。
我々は、事前訓練モデルに対する対照的なアプローチと画素単位の回帰事前テキストタスクを組み合わせることで、粗い標高マップを予測する。
論文 参考訳(メタデータ) (2023-04-13T23:01:11Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。