論文の概要: ChatEarthNet: A Global-Scale, High-Quality Image-Text Dataset for Remote
Sensing
- arxiv url: http://arxiv.org/abs/2402.11325v1
- Date: Sat, 17 Feb 2024 16:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:01:57.511171
- Title: ChatEarthNet: A Global-Scale, High-Quality Image-Text Dataset for Remote
Sensing
- Title(参考訳): ChatEarthNet: リモートセンシングのためのグローバルスケールで高品質な画像テキストデータセット
- Authors: Zhenghang Yuan, Zhitong Xiong, Lichao Mou, and Xiao Xiang Zhu
- Abstract要約: ChatEarthNetは、グローバルカバレッジ、高品質、広範囲の多様性、詳細な説明を特徴とする大規模な画像テキストデータセットである。
ChatEarthNetは、ChatGPT-3.5で生成されたキャプション付き163,488のイメージテキストペアと、ChatGPT-4Vで生成されたキャプション付き1万のイメージテキストペアで構成される。
- 参考スコア(独自算出の注目度): 26.583783910846723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An in-depth comprehension of global land cover is essential in Earth
observation, forming the foundation for a multitude of applications. Although
remote sensing technology has advanced rapidly, leading to a proliferation of
satellite imagery, the inherent complexity of these images often makes them
difficult for non-expert users to understand. Natural language, as a carrier of
human knowledge, can be a bridge between common users and complicated satellite
imagery. In this context, we introduce a global-scale, high-quality image-text
dataset for remote sensing, providing natural language descriptions for
Sentinel-2 data to facilitate the understanding of satellite imagery for common
users. Specifically, we utilize Sentinel-2 data for its global coverage as the
foundational image source, employing semantic segmentation labels from the
European Space Agency's (ESA) WorldCover project to enrich the descriptions of
land covers. By conducting in-depth semantic analysis, we formulate detailed
prompts to elicit rich descriptions from ChatGPT. To enhance the dataset's
quality, we introduce the manual verification process. This step involves
manual inspection and correction to refine the dataset, thus significantly
improving its accuracy and quality. Finally, we offer the community
ChatEarthNet, a large-scale image-text dataset characterized by global
coverage, high quality, wide-ranging diversity, and detailed descriptions.
ChatEarthNet consists of 163,488 image-text pairs with captions generated by
ChatGPT-3.5 and an additional 10,000 image-text pairs with captions generated
by ChatGPT-4V(ision). This dataset has significant potential for training
vision-language foundation models and evaluating large vision-language models
for remote sensing. The dataset will be made publicly available.
- Abstract(参考訳): 地球観測において地球規模の土地被覆の深い理解が不可欠であり、様々な応用の基礎を形成している。
リモートセンシング技術は急速に進歩し、衛星画像の拡散につながるが、これらの画像の本質的な複雑さは、専門家でないユーザにとって理解しづらいことが多い。
自然言語は、人間の知識のキャリアとして、一般的なユーザーと複雑な衛星画像の間の橋渡しとなる。
本研究では,衛星画像の理解を容易にするために,センティネル2データの自然言語記述を提供するリモートセンシングのための,大規模で高品質な画像テキストデータセットを提案する。
具体的には,欧州宇宙機関(ESA)のWorldCoverプロジェクトのセマンティックセグメンテーションラベルを用いて,土地被覆に関する記述を充実させる。
詳細な意味分析を行うことで、ChatGPTから豊富な記述を引き出すための詳細なプロンプトを定式化する。
データセットの品質を高めるために,手動検証プロセスを導入する。
このステップでは、データセットを洗練するための手作業による検査と修正によって、精度と品質を大幅に向上します。
最後に,グローバルカバレッジ,高品質,多彩な多様性,詳細な説明を特徴とする大規模画像テキストデータセットである,コミュニティチャットアースネットを提案する。
chatearthnet は163,488個の画像テキスト対と chatgpt-3.5 が生成するキャプションと、chatgpt-4v (ision) が生成するキャプションと10,000個の画像テキスト対からなる。
このデータセットは、視覚言語基礎モデルをトレーニングし、リモートセンシングのための大きな視覚言語モデルを評価する大きな可能性を持っている。
データセットは一般公開される予定だ。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival [8.656768875730904]
画像キャプションデータセットであるLuojiaHOGを導入する。
LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への分類システム、詳細なキャプション生成が含まれる。
また,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。
論文 参考訳(メタデータ) (2024-03-16T10:46:14Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。