論文の概要: GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis
- arxiv url: http://arxiv.org/abs/2502.09598v1
- Date: Thu, 13 Feb 2025 18:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:12.173589
- Title: GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis
- Title(参考訳): GAIA:リモートセンシング画像解析のためのグローバル・マルチモーダル・マルチスケールビジョンランゲージデータセット
- Authors: Angelos Zavras, Dimitrios Michail, Xiao Xiang Zhu, Begüm Demir, Ioannis Papoutsis,
- Abstract要約: 本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 17.83602731408318
- License:
- Abstract: The continuous operation of Earth-orbiting satellites generates vast and ever-growing archives of Remote Sensing (RS) images. Natural language presents an intuitive interface for accessing, querying, and interpreting the data from such archives. However, existing Vision-Language Models (VLMs) are predominantly trained on web-scraped, noisy image-text data, exhibiting limited exposure to the specialized domain of RS. This deficiency results in poor performance on RS-specific tasks, as commonly used datasets often lack detailed, scientifically accurate textual descriptions and instead emphasize solely on attributes like date and location. To bridge this critical gap, we introduce GAIA, a novel dataset designed for multi-scale, multi-sensor, and multi-modal RS image analysis. GAIA comprises of 205,150 meticulously curated RS image-text pairs, representing a diverse range of RS modalities associated to different spatial resolutions. Unlike existing vision-language datasets in RS, GAIA specifically focuses on capturing a diverse range of RS applications, providing unique information about environmental changes, natural disasters, and various other dynamic phenomena. The dataset provides a spatially and temporally balanced distribution, spanning across the globe, covering the last 25 years with a balanced temporal distribution of observations. GAIA's construction involved a two-stage process: (1) targeted web-scraping of images and accompanying text from reputable RS-related sources, and (2) generation of five high-quality, scientifically grounded synthetic captions for each image using carefully crafted prompts that leverage the advanced vision-language capabilities of GPT-4o. Our extensive experiments, including fine-tuning of CLIP and BLIP2 models, demonstrate that GAIA significantly improves performance on RS image classification, cross-modal retrieval and image captioning tasks.
- Abstract(参考訳): 地球周回衛星の連続的な運用は、遠距離センシング(RS)画像の広大かつ絶え間なく成長するアーカイブを生成する。
自然言語は、そのようなアーカイブからデータにアクセス、クエリ、解釈するための直感的なインターフェースを提供する。
しかし、既存のビジョン・ランゲージ・モデル(VLM)は、主にウェブスクラッドでノイズの多い画像テキストデータに基づいて訓練されており、RSの特殊領域への露出が限られている。
一般的に使用されるデータセットは、詳細で科学的に正確なテキスト記述を欠いていることが多く、代わりに日付や位置などの属性のみに重点を置いている。
この重要なギャップを埋めるために,マルチスケール,マルチセンサ,マルチモーダルRS画像解析用に設計された新しいデータセットであるGAIAを導入する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
既存の RS の視覚言語データセットとは異なり、GAIA は様々な RS アプリケーションの取得に特化しており、環境の変化や自然災害、その他の様々な動的現象に関するユニークな情報を提供している。
このデータセットは空間的および時間的バランスの取れた分布を提供し、過去25年間を観測の時間的バランスの取れた分布でカバーしている。
GAIA の構築には,(1) 画像のウェブスクラッピングを目標とし,検索可能な RS 関連ソースからテキストを添付し,(2) GPT-4o の先進的な視覚言語能力を活用する,慎重に構築されたプロンプトを用いて,画像ごとに高品質で科学的に基礎付けられた5つの合成キャプションを生成する,という2段階のプロセスが含まれていた。
CLIPおよびBLIP2モデルの微調整を含む広範囲な実験により、GAIAはRS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に向上することが示された。
関連論文リスト
- MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation [25.252173311925027]
マルチモーダル,マルチGSD,マルチシーンリモートセンシング(MMM-RS)データセットと,多様なリモートセンシングシナリオにおけるテキスト・ツー・イメージ生成のためのベンチマークを提案する。
大規模な事前学習型視覚言語モデルを用いて、テキストプロンプトを自動出力し、手作りの修正を行う。
広範囲な手動スクリーニングと修正アノテーションにより、最終的に約2100万のテキストイメージペアからなるMMM-RSデータセットを得る。
論文 参考訳(メタデータ) (2024-10-26T11:19:07Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [5.981597754991408]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,13万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - Towards a multimodal framework for remote sensing image change retrieval and captioning [3.3488510654648453]
本稿では,両時間RS画像ペアのための新しい基礎モデルを提案する。
コントラストエンコーダとキャプションデコーダを共同でトレーニングすることにより、両時間的変化検出の文脈でテキスト画像検索機能を付加する。
論文 参考訳(メタデータ) (2024-06-19T10:30:56Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival [8.656768875730904]
画像キャプションデータセットであるLuojiaHOGを導入する。
LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への分類システム、詳細なキャプション生成が含まれる。
また,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。
論文 参考訳(メタデータ) (2024-03-16T10:46:14Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。