論文の概要: BigEarthNet.txt: A Large-Scale Multi-Sensor Image-Text Dataset and Benchmark for Earth Observation
- arxiv url: http://arxiv.org/abs/2603.29630v2
- Date: Wed, 01 Apr 2026 07:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.627028
- Title: BigEarthNet.txt: A Large-Scale Multi-Sensor Image-Text Dataset and Benchmark for Earth Observation
- Title(参考訳): BigEarthNet.txt:地球観測のための大規模マルチセンサー画像テキストデータセットとベンチマーク
- Authors: Johann-Ludwig Herzog, Mathis Jürgen Adler, Leonard Hackel, Yan Shu, Angelos Zavras, Ioannis Papoutsis, Paolo Rota, Begüm Demir,
- Abstract要約: VLM(Vision-langugage Model)は、コンピュータビジョン(CV)において強力な性能を示す。
既存のデータセットは主に、短いまたは弱い接地されたキャプションを持つ空中赤緑色画像を含む。
大規模なマルチセンサー画像テキストデータセットであるBigEarthNet$.$txtを紹介する。
- 参考スコア(独自算出の注目度): 14.687268420238006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-langugage models (VLMs) have shown strong performance in computer vision (CV), yet their performance on remote sensing (RS) data remains limited due to the lack of large-scale, multi-sensor RS image-text datasets with diverse textual annotations. Existing datasets predominantly include aerial Red-Green-Blue imagery, with short or weakly grounded captions, and provide limited diversity in annotation types. To address this limitation, we introduce BigEarthNet$.$txt, a large-scale, multi-sensor image-text dataset designed to advance instruction-driven image-text learning in Earth observation across multiple tasks. BigEarthNet$.$txt contains 464044 co-registered Sentinel-1 synthetic aperture radar and Sentinel-2 multispectral images with 9.6M text annotations, including: i) geographically anchored captions describing land-use/land-cover (LULC) classes, their spatial relations, and environmental context; ii) visual question answering pairs relevant for different tasks; and iii) referring expression detection instructions for bounding box prediction. Through a comparative statistical analysis, we demonstrate that BigEarthNet$.$txt surpasses existing RS image-text datasets in textual richness and annotation type variety. We further establish a manually-verified benchmark split to evaluate VLMs in RS and CV. The results show the limitations of these models on tasks that involve complex LULC classes, whereas fine-tuning using BigEarthNet$.$txt results in consistent performance gains across all considered tasks.
- Abstract(参考訳): VLM(Vision-langugage Model)は、コンピュータビジョン(CV)において強力なパフォーマンスを示しているが、大規模なマルチセンサーRS画像テキストデータセットの欠如により、リモートセンシング(RS)データのパフォーマンスは制限されている。
既存のデータセットは主に、短いまたは弱い接地されたキャプションを持つ空中赤緑色画像を含み、アノテーションの型に制限のある多様性を提供する。
この制限に対処するために、BigEarthNet$を紹介します。
$txtは大規模なマルチセンサーイメージテキストデータセットで、複数のタスクにわたる地球観測における命令駆動イメージテキスト学習を前進させるように設計されている。
BigEarthNet$
$txtには464044の登録されたSentinel-1合成開口レーダーと9.6Mテキストアノテーション付きSentinel-2マルチスペクトル画像が含まれている。
一 土地利用/土地被覆(LULC)級、その空間関係及び環境文脈を記載した地理的に固定したキャプション
二 異なる業務に関連する対の視覚的質問応答
三 境界ボックス予測のための表現検出指示を参照すること。
比較統計分析によって、BigEarthNet$が示される。
$txtは、テキストの豊かさとアノテーションタイプの多様性において、既存のRSイメージテキストデータセットを上回っている。
さらに,手動で検証したベンチマークスプリットを構築し,RSとCVのVLMを評価する。
その結果、複雑なLULCクラスを含むタスクにおいて、これらのモデルの制限が示され、BigEarthNet$を使った微調整が行なわれた。
$txtは考慮されたすべてのタスクで一貫したパフォーマンス向上をもたらす。
関連論文リスト
- DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis [17.83602731408318]
本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-13T18:52:14Z) - SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。
本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文 参考訳(メタデータ) (2025-02-12T07:19:36Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。