論文の概要: Geospatial-Temporal Sensemaking of Remote Sensing Activity Detections with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2605.10739v1
- Date: Mon, 11 May 2026 15:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.94982
- Title: Geospatial-Temporal Sensemaking of Remote Sensing Activity Detections with Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルを用いたリモートセンシング活動検出の空間的・時間的センス作成
- Authors: David F. Ramirez, Tim Overman, Kristen Jaskie, Andreas Spanias,
- Abstract要約: IARPA SMART重構築データセットから得られた視覚的質問応答データセットSMARTHC-VQAを紹介する。
データセットは、構築型ラベル、時間相ラベル、地理的メタデータ、観察関係を自然言語の質問応答三つ子に変換する。
LVA-NeXT Mistral-7Bに基づくマルチイメージMLLMトレーニングフレームワークについて述べる。
- 参考スコア(独自算出の注目度): 3.569867801312132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SMART-HC-VQA, a Sentinel-2-based visual question answering dataset derived from the IARPA SMART Heavy Construction dataset, designed for spatiotemporal analysis of human activity. The dataset transforms construction-site annotations, construction-type labels, temporal-phase labels, geographic metadata, and observation relationships into natural language question-answer triplets. This approach redefines the existing dataset as a temporally extended automatic target recognition and visual question answering (VQA) challenge, considering a fixed geospatial site as a target whose attributes and activity states evolve across sparse satellite observations. Currently, SMART-HC-VQA comprises 21,837 accessible Sentinel-2 image chips, 65,511 single-image VQA examples, and approximately 2.3 million two-image temporal comparison examples generated via our novel Image-Pairwise Combinatorial Augmentation. We detail the workflow for retrieving and processing Sentinel-2 imagery, segmenting large satellite tiles into site-centered images, maintaining traceability to SMART-HC annotations, and analyzing the distributions of site size, observation count, temporal coverage, construction type, and phase labels. Additionally, we describe an implemented multi-image MLLM training framework based on LLaVA-NeXT Mistral-7B, adapted to accept multiple dated image inputs and train on metadata-derived VQA examples. This work offers a reproducible foundation for understanding language-guided remote sensing activities, aiming not only to detect change but also to reason about the ongoing processes, their progression, and potential future developments.
- Abstract(参考訳): IARPA SMARTヘビーコンストラクションデータセットから得られたセンチネル2に基づく視覚質問応答データセットSMART-HC-VQAを導入し,人間の活動の時空間的分析を目的とした。
データセットは、構築現場アノテーション、構築タイプラベル、時間相ラベル、地理的メタデータ、観察関係を自然言語の質問回答三つ子に変換する。
提案手法は, 衛星観測における特徴や活動状態の変化するターゲットとして固定された地理空間的位置を考慮し, 時間的に拡張された自動目標認識と視覚的質問応答(VQA)課題として, 既存のデータセットを再定義する。
現在、SMART-HC-VQAは、21,837個のアクセス可能なSentinel-2イメージチップ、65,511個のシングルイメージVQAサンプル、および私たちの新しいImage-Pairwise Combinatorial Augmentationによって生成される約230万の2画像時間比較例で構成されている。
本稿では,Sentinel-2画像の検索と処理のワークフロー,大規模衛星タイルのサイト中心画像への分割,SMART-HCアノテーションへのトレーサビリティの維持,サイトサイズ,観測回数,時間的カバレッジ,建設タイプ,フェーズラベルの分布の解析について詳述する。
さらに,LLaVA-NeXT Mistral-7BをベースとしたマルチイメージMLLMトレーニングフレームワークについて述べる。
この研究は、言語誘導のリモートセンシング活動を理解するための再現可能な基盤を提供する。
関連論文リスト
- A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning [10.748210940033484]
現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
論文 参考訳(メタデータ) (2024-11-03T06:03:39Z) - Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Context-Enhanced Detector For Building Detection From Remote Sensing Images [41.3238458718635]
コンテキスト強化検出器(CEDet)と呼ばれる新しい手法を提案する。
提案手法では,3段階のカスケード構造を用いてコンテキスト情報の抽出を強化し,建物検出精度を向上させる。
提案手法は,CNBuilding-9P,CNBuilding-23P,SpaceNetを含む3つのビルディング検出ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-11T16:33:30Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。