論文の概要: OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
- arxiv url: http://arxiv.org/abs/2603.09471v1
- Date: Tue, 10 Mar 2026 10:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.230018
- Title: OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
- Title(参考訳): OmniEarth:地理空間的タスクにおける視覚言語モデルの評価ベンチマーク
- Authors: Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang,
- Abstract要約: VLM(Vision-Language Models)は、汎用ドメインタスクにおいて効果的な知覚と推論能力を示す。
実地観測シナリオ下でRSVLMを評価するためのベンチマークであるOmniEarthを紹介する。
- 参考スコア(独自算出の注目度): 17.287931287864982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated effective perception and reasoning capabilities on general-domain tasks, leading to growing interest in their application to Earth observation. However, a systematic benchmark for comprehensively evaluating remote sensing vision-language models (RSVLMs) remains lacking. To address this gap, we introduce OmniEarth, a benchmark for evaluating RSVLMs under realistic Earth observation scenarios. OmniEarth organizes tasks along three capability dimensions: perception, reasoning, and robustness. It defines 28 fine-grained tasks covering multi-source sensing data and diverse geospatial contexts. The benchmark supports two task formulations: multiple-choice VQA and open-ended VQA. The latter includes pure text outputs for captioning tasks, bounding box outputs for visual grounding tasks, and mask outputs for segmentation tasks. To reduce linguistic bias and examine whether model predictions rely on visual evidence, OmniEarth adopts a blind test protocol and a quintuple semantic consistency requirement. OmniEarth includes 9,275 carefully quality-controlled images, including proprietary satellite imagery from Jilin-1 (JL-1), along with 44,210 manually verified instructions. We conduct a systematic evaluation of contrastive learning-based models, general closed-source and open-source VLMs, as well as RSVLMs. Results show that existing VLMs still struggle with geospatially complex tasks, revealing clear gaps that need to be addressed for remote sensing applications. OmniEarth is publicly available at https://huggingface.co/datasets/sjeeudd/OmniEarth.
- Abstract(参考訳): VLM(Vision-Language Models)は、一般領域のタスクに対する効果的な認識と推論能力を示し、地球観測への応用への関心が高まっている。
しかし、リモートセンシングビジョン言語モデル(RSVLM)を包括的に評価するための体系的ベンチマークは、まだ不十分である。
このギャップに対処するために,現実的な地球観測シナリオ下でRSVLMを評価するためのベンチマークであるOmniEarthを紹介する。
OmniEarthは、知覚、推論、堅牢性の3つの能力次元に沿ってタスクを編成する。
マルチソースセンシングデータと多様な地理空間コンテキストをカバーする28のきめ細かいタスクを定義する。
このベンチマークでは、マルチチョイスVQAとオープンエンドVQAという2つのタスクの定式化をサポートしている。
後者には、キャプションタスクのための純粋なテキスト出力、ビジュアルグラウンドタスクのためのバウンディングボックス出力、セグメンテーションタスクのためのマスク出力が含まれる。
言語バイアスを減らし、モデル予測が視覚的エビデンスに依存するかどうかを調べるため、OmniEarthはブラインドテストプロトコルと4つのセマンティック一貫性要件を採用する。
OmniEarthには9,275枚の精巧な品質管理された画像が含まれており、その中にはJL-1(JL-1)からの独自の衛星画像と44,210個の手作業による検証命令が含まれている。
コントラスト学習モデル,一般クローズドソースおよびオープンソースVLM,およびRSVLMの体系的評価を行う。
以上の結果から,既存のVLMは地理的に複雑なタスクに苦戦しており,リモートセンシングアプリケーションに対処する必要のあるギャップが明らかになっている。
OmniEarthはhttps://huggingface.co/datasets/sjeeudd/OmniEarth.comで公開されている。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - EarthVL: A Progressive Earth Vision-Language Understanding and Generation Framework [37.80969053377522]
マルチタスクデータセット(EarthVLSet)と意味誘導ネットワーク(EarthVLNet)を含む、プログレッシブアースビジョン言語理解フレームワークを提案する。
EarthVLSetには10.9kのサブメートル解像度のリモートセンシング画像、ランドカバーマスク、761.5kのテキストペアが含まれる。
オブジェクト中心の方法では、セマンティックセグメンテーション、リレーショナル推論、包括的な理解を徐々に達成するためにEarthVLNetが提案されている。
論文 参考訳(メタデータ) (2026-01-06T07:41:44Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。
Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。
本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。
本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文 参考訳(メタデータ) (2025-03-16T12:48:17Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Good at captioning, bad at counting: Benchmarking GPT-4V on Earth
observation data [7.797577465015058]
本研究では,地球観測データに有用なツールとして,VLM(Large Vision-Language Models)の進展を評価するためのベンチマークを提案する。
私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。
私たちのベンチマークはhttps://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70で公開されます。
論文 参考訳(メタデータ) (2024-01-31T04:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。