論文の概要: DescribeEarth: Describe Anything for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2509.25654v1
- Date: Tue, 30 Sep 2025 01:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.977396
- Title: DescribeEarth: Describe Anything for Remote Sensing Images
- Title(参考訳): DescribeEarth: リモートセンシング画像に何かを記述する
- Authors: Kaiyu Li, Zixuan Jiang, Xiangyong Cao, Jiayu Wang, Yuchen Xiao, Deyu Meng, Zhi Wang,
- Abstract要約: リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
- 参考スコア(独自算出の注目度): 56.04533626223295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated textual description of remote sensing images is crucial for unlocking their full potential in diverse applications, from environmental monitoring to urban planning and disaster management. However, existing studies in remote sensing image captioning primarily focus on the image level, lacking object-level fine-grained interpretation, which prevents the full utilization and transformation of the rich semantic and structural information contained in remote sensing images. To address this limitation, we propose Geo-DLC, a novel task of object-level fine-grained image captioning for remote sensing. To support this task, we construct DE-Dataset, a large-scale dataset contains 25 categories and 261,806 annotated instances with detailed descriptions of object attributes, relationships, and contexts. Furthermore, we introduce DE-Benchmark, a LLM-assisted question-answering based evaluation suite designed to systematically measure model capabilities on the Geo-DLC task. We also present DescribeEarth, a Multi-modal Large Language Model (MLLM) architecture explicitly designed for Geo-DLC, which integrates a scale-adaptive focal strategy and a domain-guided fusion module leveraging remote sensing vision-language model features to encode high-resolution details and remote sensing category priors while maintaining global context. Our DescribeEarth model consistently outperforms state-of-the-art general MLLMs on DE-Benchmark, demonstrating superior factual accuracy, descriptive richness, and grammatical soundness, particularly in capturing intrinsic object features and surrounding environmental attributes across simple, complex, and even out-of-distribution remote sensing scenarios. All data, code and weights are released at https://github.com/earth-insights/DescribeEarth.
- Abstract(参考訳): リモートセンシング画像の自動記述は, 環境モニタリングから都市計画, 災害管理に至るまで, 多様な分野での潜在能力を最大限に活用するために重要である。
しかし、リモートセンシング画像キャプションにおける既存の研究は主に画像レベルに焦点を当てており、オブジェクトレベルの微粒な解釈が欠如しているため、リモートセンシング画像に含まれるリッチセマンティックおよび構造情報のフル活用と変換が不可能である。
この制限に対処するために、リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションの新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために、大規模なデータセットは25のカテゴリと261,806のアノテーション付きインスタンスを含み、オブジェクト属性、関係、コンテキストを詳細に記述する。
さらに,LLM支援質問応答に基づく評価スイートであるDE-Benchmarkを導入し,Geo-DLCタスクにおけるモデル機能の評価を体系的に行う。
グローバルなコンテキストを維持しつつ,高解像度の細部とリモートセンシングカテゴリをエンコードするリモートセンシングビジョン言語機能を活用した,スケール適応型焦点戦略とドメイン誘導型融合モジュールを統合したマルチモーダル大規模言語モデル(MLLM)アーキテクチャであるDescribeEarthについても紹介する。
我々のDescribeEarthモデルは、De-Benchmarkにおける最先端のMLLMを一貫して上回り、優れた事実精度、記述的豊かさ、文法的健全性を示す。
すべてのデータ、コード、ウェイトはhttps://github.com/earth-insights/DescribeEarth.comで公開される。
関連論文リスト
- DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World [68.39362698871503]
我々はDenseWorld-1Mを紹介した。
オープンワールド認識,詳細なオブジェクトキャプション生成,高密度キャプションマージを含む3段階ラベリングパイプラインを設計する。
ラベル付けプロセスの高速化とキャプション品質の向上を目的として, 詳細領域キャプションモデルと空間キャプションマージモデルという2つのVLMモデルを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:51:25Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。
Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。
本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。
本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文 参考訳(メタデータ) (2025-03-16T12:48:17Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - ChatEarthNet: A Global-Scale Image-Text Dataset Empowering
Vision-Language Geo-Foundation Models [26.583783910846723]
ChatEarthNetは、グローバルカバレッジ、高品質、広範囲の多様性、詳細な説明を特徴とする大規模な画像テキストデータセットである。
ChatEarthNetは、ChatGPT-3.5で生成されたキャプション付き163,488のイメージテキストペアと、ChatGPT-4Vで生成されたキャプション付き1万のイメージテキストペアで構成される。
論文 参考訳(メタデータ) (2024-02-17T16:38:40Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。