論文の概要: EarthVL: A Progressive Earth Vision-Language Understanding and Generation Framework
- arxiv url: http://arxiv.org/abs/2601.02783v1
- Date: Tue, 06 Jan 2026 07:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.848448
- Title: EarthVL: A Progressive Earth Vision-Language Understanding and Generation Framework
- Title(参考訳): EarthVL: プログレッシブな地球ビジョンランゲージ理解と生成フレームワーク
- Authors: Junjue Wang, Yanfei Zhong, Zihang Chen, Zhuo Zheng, Ailong Ma, Liangpei Zhang,
- Abstract要約: マルチタスクデータセット(EarthVLSet)と意味誘導ネットワーク(EarthVLNet)を含む、プログレッシブアースビジョン言語理解フレームワークを提案する。
EarthVLSetには10.9kのサブメートル解像度のリモートセンシング画像、ランドカバーマスク、761.5kのテキストペアが含まれる。
オブジェクト中心の方法では、セマンティックセグメンテーション、リレーショナル推論、包括的な理解を徐々に達成するためにEarthVLNetが提案されている。
- 参考スコア(独自算出の注目度): 37.80969053377522
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Earth vision has achieved milestones in geospatial object recognition but lacks exploration in object-relational reasoning, limiting comprehensive scene understanding. To address this, a progressive Earth vision-language understanding and generation framework is proposed, including a multi-task dataset (EarthVLSet) and a semantic-guided network (EarthVLNet). Focusing on city planning applications, EarthVLSet includes 10.9k sub-meter resolution remote sensing images, land-cover masks, and 761.5k textual pairs involving both multiple-choice and open-ended visual question answering (VQA) tasks. In an object-centric way, EarthVLNet is proposed to progressively achieve semantic segmentation, relational reasoning, and comprehensive understanding. The first stage involves land-cover segmentation to generate object semantics for VQA guidance. Guided by pixel-wise semantics, the object awareness based large language model (LLM) performs relational reasoning and knowledge summarization to generate the required answers. As for optimization, the numerical difference loss is proposed to dynamically add difference penalties, addressing the various objects' statistics. Three benchmarks, including semantic segmentation, multiple-choice, and open-ended VQA demonstrated the superiorities of EarthVLNet, yielding three future directions: 1) segmentation features consistently enhance VQA performance even in cross-dataset scenarios; 2) multiple-choice tasks show greater sensitivity to the vision encoder than to the language decoder; and 3) open-ended tasks necessitate advanced vision encoders and language decoders for an optimal performance. We believe this dataset and method will provide a beneficial benchmark that connects ''image-mask-text'', advancing geographical applications for Earth vision.
- Abstract(参考訳): 地球視覚は、地理空間的物体認識においてマイルストーンを達成したが、オブジェクト関係推論の探索が欠如しており、総合的な風景理解が制限されている。
これを解決するために、マルチタスクデータセット(EarthVLSet)と意味誘導ネットワーク(EarthVLNet)を含むプログレッシブアースビジョン言語理解・生成フレームワークを提案する。
EarthVLSetには、10.9kのサブメートル解像度のリモートセンシング画像、ランドカバーマスク、マルチチョイスとオープンエンドの視覚的質問応答(VQA)の両方を含む761.5kのテキストペアが含まれている。
オブジェクト中心の方法では、セマンティックセグメンテーション、リレーショナル推論、包括的な理解を徐々に達成するためにEarthVLNetが提案されている。
第1段階は、VQAガイダンスのためのオブジェクトセマンティクスを生成するための土地被覆セグメンテーションである。
オブジェクト認識に基づく大規模言語モデル(LLM)は,画素単位のセマンティクスによって導かれる。
最適化では,様々な物体の統計値に対処するため,動的に差分ペナルティを加算する数値差分損失を提案する。
セマンティックセグメンテーション、多重選択、オープンエンドVQAを含む3つのベンチマークは、EarthVLNetの優位性を証明し、次の3つの方向を導いた。
1)セグメンテーション機能は、クロスデータセットシナリオにおいても、一貫してVQAパフォーマンスを向上する。
2)複数選択タスクは、言語デコーダよりもビジョンエンコーダの感度が高い。
3) 高度な視覚エンコーダと言語デコーダを最適性能のために必要となるオープンエンドタスク。
我々は、このデータセットと手法が'画像マスクテキスト'を接続する有益なベンチマークを提供し、地球ビジョンのための地理的応用を推し進めると考えている。
関連論文リスト
- DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery [10.196580289786414]
リモートセンシングにおけるオープン・セットの土地被覆分析は、きめ細かい空間的局所化とセマンティック・オープンな分類を実現する能力を必要とする。
我々は,アノテーションのないオープンセット土地被覆発見,セグメンテーション,記述のための3段階統合フレームワークOSDAを紹介する。
我々の研究は、動的土地被覆モニタリングのためのスケーラブルで解釈可能なソリューションを提供し、自動地図更新と大規模地球観測分析の強力な可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T06:23:56Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。
Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。
本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。
本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文 参考訳(メタデータ) (2025-03-16T12:48:17Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:32Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。