論文の概要: Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery
- arxiv url: http://arxiv.org/abs/2508.03127v2
- Date: Wed, 06 Aug 2025 00:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.395475
- Title: Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery
- Title(参考訳): Landsat30-AU:オーストラリアのランドサット画像のためのビジョンランゲージデータセット
- Authors: Sai Ma, Zhuang Li, John A Taylor,
- Abstract要約: Landsat30-AU(ランドサット30-AU)は、オーストラリア上空の4つのランドサット衛星によって収集された30メートルの解像度画像から構築された視覚言語データセットである。
データセットには2つのコンポーネントが含まれている: Landsat30-AU-Cap、イメージキャプチャペア196,262ドル、Landsat30-AU-VQA。
- 参考スコア(独自算出の注目度): 16.921090589233064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) that enable natural language interaction with satellite imagery can democratize Earth observation by accelerating expert workflows, making data accessible to non-specialists, and enabling planet-scale automation. However, existing datasets focus mainly on short-term, high-resolution imagery from a limited number of satellites, overlooking low-resolution, multi-satellite, long-term archives, such as Landsat, that are essential for affordable and bias-robust global monitoring. We address this gap with Landsat30-AU, a large-scale vision-language dataset built from 30-meter resolution imagery collected by four Landsat satellites (5, 7, 8, and 9) over Australia, spanning more than 36 years. The dataset includes two components: Landsat30-AU-Cap, containing $196,262$ image-caption pairs, and Landsat30-AU-VQA, comprising 17,725 human-verified visual question answering (VQA) samples across eight remote sensing domains. Both datasets are curated through a bootstrapped pipeline that leverages generic VLMs with iterative refinement and human verification to ensure quality. Our evaluation of eight VLMs on our benchmark reveals that off-the-shelf models struggle to understand satellite imagery. The open-source remote-sensing VLM EarthDial achieves only 0.07 SPIDEr in captioning and a VQA accuracy of 0.48, highlighting the limitations of current approaches. Encouragingly, lightweight fine-tuning of Qwen2.5-VL-7B on Landsat30-AU improves captioning performance from 0.11 to 0.31 SPIDEr and boosts VQA accuracy from 0.74 to 0.87. Code and data are available at https://github.com/papersubmit1/landsat30-au.
- Abstract(参考訳): 衛星画像との自然言語インタラクションを可能にするビジョン言語モデル(VLM)は、専門家のワークフローを加速し、専門家以外のデータにアクセスし、惑星規模の自動化を可能にすることで、地球観測を民主化することができる。
しかし、既存のデータセットは主に、安価で偏りのないグローバルな監視に不可欠なランドサットのような、低解像度で多衛星の長期アーカイブを見渡す、限られた数の衛星からの短期、高解像度の画像に焦点を当てている。
このギャップに対処するLandsat30-AUは、オーストラリアの4つのLandsat衛星(5, 7, 8, 9)が収集した30メートルの解像度画像から構築された大規模な視覚言語データセットである。
データセットには2つのコンポーネントが含まれている: Landsat30-AU-Cap、イメージキャプチャペア196,262ドル、Landsat30-AU-VQA。
両方のデータセットはブートストラップされたパイプラインを通じてキュレーションされ、品質を保証するために、反復的な洗練と人間の検証によるジェネリックVLMを活用する。
我々のベンチマークによる8つのVLMの評価は、市販のモデルでは衛星画像を理解するのに苦労していることを示している。
オープンソースのリモートセンシングVLM EarthDialはキャプションで0.07 SPIDErしか達成せず、VQAの精度は0.48であり、現在のアプローチの限界を強調している。
ランドサット30-AUのQwen2.5-VL-7Bの軽量微調整によりキャプション性能は0.11から0.31 SPIDErに向上し、VQAの精度は0.74から0.87に向上する。
コードとデータはhttps://github.com/papersubmit1/landsat30-auで公開されている。
関連論文リスト
- AG-VPReID 2025: Aerial-Ground Video-based Person Re-identification Challenge Results [64.38412449125872]
本稿では,高高度(80-120m)の地上ReIDに焦点を当てた初の大規模ビデオベースコンペであるAG-VPReID 2025 Challengeを紹介する。
この課題は、3,027個のID、13,500個のトラックレット、UAV、CCTV、ウェアラブルカメラから取得された約370万フレームからなるAG-VPReIDデータセット上に構築された。
UAMのX-TFCLIPによる空中対地ReID設定では72.28%、地上対地ReID設定では70.77%の精度を達成した
論文 参考訳(メタデータ) (2025-06-28T10:45:30Z) - MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments [0.5339846068056558]
我々は,地雷検出のためのマルチセンサ,マルチスペクトルデータセットであるMineInsightを紹介した。
データセットには3つの異なるトラックに沿って分散された35の異なるターゲットがあり、多様で現実的なテスト環境を提供する。
MineInsightは地雷検出アルゴリズムの開発と評価のベンチマークとして機能する。
論文 参考訳(メタデータ) (2025-06-05T10:08:24Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Crowd Detection Using Very-Fine-Resolution Satellite Imagery [23.509128934809453]
群衆検出(CD)は、公共の安全と歴史的パターン分析に重要である。
CrowdSat-Netは、新しいポイントベースの畳み込みニューラルネットワークである。
CrowdSat-Netは5つの最先端のポイントベースのCD手法と比較された。
論文 参考訳(メタデータ) (2025-04-28T07:51:26Z) - Towards LLM Agents for Earth Observation [49.92444022073444]
これは、NASAの地球観測所の記事から13のトピックと17の衛星センサーに関する140のイエス/ノーの質問のベンチマークである。
Google Earth Engine APIをツールとして使用すると、LLMエージェントは58%以上のコードを実行できないため、33%の精度しか達成できない。
我々は、合成データを微調整することで、オープンモデルの失敗率を改善し、より小さなモデルの方が、はるかに大きなモデルに匹敵する精度が得られるようにした。
論文 参考訳(メタデータ) (2025-04-16T14:19:25Z) - Detecting Cadastral Boundary from Satellite Images Using U-Net model [0.42056926734482053]
本稿では,ResNet34バックボーンを用いたU-Netモデルの学習にトランスファーラーニングを用い,カダストラル境界を検出する。
イランの農地における2つの衛星画像の性能を「精度」「リコール」「Fスコア」を用いて評価した。
論文 参考訳(メタデータ) (2025-02-16T09:04:37Z) - OpenEarthMap-SAR: A Benchmark Synthetic Aperture Radar Dataset for Global High-Resolution Land Cover Mapping [16.387666608029882]
我々は,地球規模の高解像度土地被覆マッピングのためのベンチマークSARデータセットOpenEarthMap-SARを紹介する。
OpenEarthMap-SARは、5033の航空画像と衛星画像の150万部で構成され、サイズは1024$times$1024ピクセルで、日本、フランス、アメリカから35の地域をカバーしている。
セマンティックセグメンテーションのための最先端手法の性能評価と,さらなる技術開発に適した課題設定を提案する。
論文 参考訳(メタデータ) (2025-01-18T22:30:27Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - Vehicle Perception from Satellite [54.07157185000604]
データセットは、GTA-Vから記録された12の衛星ビデオと14の合成ビデオに基づいて構築されている。
小さなオブジェクトの検出、カウント、密度推定など、いくつかのタスクをサポートする。
128,801両は完全に注釈付けされており、各画像の車両数は0から101まで様々である。
論文 参考訳(メタデータ) (2024-02-01T15:59:16Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - SSL4EO-L: Datasets and Foundation Models for Landsat Imagery [8.34029977985994]
ランドサット計画 (Landsat program) は、過去最長の地球観測計画であり、8つの衛星による50年以上のデータ取得である。
深層学習やリモートセンシングの普及にもかかわらず、ほとんどの研究者はランドサットの画像解析に決定木とランダムな森林を使っている。
本稿では,ランドサット衛星群を対象としたセルフ・スーパーバイザード・ラーニング・フォー・アース・オブ・オブ・アース・オブ・ザ・観察のために設計された最初のデータセットであるSSL4EO-Lを紹介する。
論文 参考訳(メタデータ) (2023-06-15T18:11:20Z) - Planetary UAV localization based on Multi-modal Registration with
Pre-existing Digital Terrain Model [0.5156484100374058]
我々は,UAV上のナディルビューカメラを用いて,惑星UAVの位置を推定するマルチモーダル登録に基づくSLAMアルゴリズムを提案する。
オンボードUAV画像とプリインストールデジタル地形モデルとのスケールと外観の違いを克服するために,UAV画像とDEMの地形特性がクロスパワースペクトルを介して周波数領域で相関できることを示す理論的モデルを提案した。
提案するローカライゼーションアルゴリズムのロバスト性と有効性をテストするために,惑星探査のための新しいクロスソースドローンベースのローカライゼーションデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-24T02:54:01Z) - Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark [97.07865343576361]
DroneCrowdという新しいドローンキャプチャ型大規模データセットによるベンチマークを構築した。
私たちは4800万人の頭といくつかのビデオレベルの属性を持つ20,800人のトラジェクタに注釈を付けます。
我々は、密集した群衆の物体の検出、追跡、数え上げを行うための強力なベースラインとして、Space-Time Neighbor-Aware Network (STNNet)を設計する。
論文 参考訳(メタデータ) (2021-05-06T04:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。