論文の概要: RSVLM-QA: A Benchmark Dataset for Remote Sensing Vision Language Model-based Question Answering
- arxiv url: http://arxiv.org/abs/2508.07918v1
- Date: Mon, 11 Aug 2025 12:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.090938
- Title: RSVLM-QA: A Benchmark Dataset for Remote Sensing Vision Language Model-based Question Answering
- Title(参考訳): RSVLM-QA: リモートセンシングビジョン言語モデルに基づく質問応答のためのベンチマークデータセット
- Authors: Xing Zi, Jinghao Xiao, Yunxiao Shi, Xian Tao, Jun Li, Ali Braytee, Mukesh Prasad,
- Abstract要約: 本稿では,RSドメイン用の大規模コンテンツリッチVQAデータセットであるRSVLM-QAデータセットを紹介する。
RSVLM-QAは13,820枚の画像と162,373枚のVQAペアで構成され、豊富なアノテーションと多様な質問タイプを備えている。
データセットの詳細な統計分析と既存のRS VQAベンチマークとの比較を行う。
- 参考スコア(独自算出の注目度): 5.8161272823734205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) in remote sensing (RS) is pivotal for interpreting Earth observation data. However, existing RS VQA datasets are constrained by limitations in annotation richness, question diversity, and the assessment of specific reasoning capabilities. This paper introduces RSVLM-QA dataset, a new large-scale, content-rich VQA dataset for the RS domain. RSVLM-QA is constructed by integrating data from several prominent RS segmentation and detection datasets: WHU, LoveDA, INRIA, and iSAID. We employ an innovative dual-track annotation generation pipeline. Firstly, we leverage Large Language Models (LLMs), specifically GPT-4.1, with meticulously designed prompts to automatically generate a suite of detailed annotations including image captions, spatial relations, and semantic tags, alongside complex caption-based VQA pairs. Secondly, to address the challenging task of object counting in RS imagery, we have developed a specialized automated process that extracts object counts directly from the original segmentation data; GPT-4.1 then formulates natural language answers from these counts, which are paired with preset question templates to create counting QA pairs. RSVLM-QA comprises 13,820 images and 162,373 VQA pairs, featuring extensive annotations and diverse question types. We provide a detailed statistical analysis of the dataset and a comparison with existing RS VQA benchmarks, highlighting the superior depth and breadth of RSVLM-QA's annotations. Furthermore, we conduct benchmark experiments on Six mainstream Vision Language Models (VLMs), demonstrating that RSVLM-QA effectively evaluates and challenges the understanding and reasoning abilities of current VLMs in the RS domain. We believe RSVLM-QA will serve as a pivotal resource for the RS VQA and VLM research communities, poised to catalyze advancements in the field.
- Abstract(参考訳): リモートセンシング(RS)における視覚質問応答(VQA)は、地球観測データの解釈に重要である。
しかし、既存のRS VQAデータセットは、アノテーションの豊かさ、質問の多様性、特定の推論能力の評価の制限によって制約されている。
本稿では,RSドメイン用の大規模コンテンツリッチVQAデータセットであるRSVLM-QAデータセットを紹介する。
RSVLM-QAは、いくつかの著名なRSセグメンテーションと検出データセット(WHU、LoveDA、INRIA、iSAID)のデータを統合して構築されている。
我々は、革新的なデュアルトラックアノテーション生成パイプラインを採用している。
まず、画像キャプション、空間関係、セマンティックタグを含む一連の詳細なアノテーションを、複雑なキャプションベースのVQAペアとともに自動生成する。
第2に、RS画像におけるオブジェクトカウントの課題に対処するために、元のセグメンテーションデータから直接オブジェクトカウントを抽出する特殊な自動化プロセスを開発した; GPT-4.1では、これらのカウントから自然言語回答を定式化し、プリセットされた質問テンプレートと組み合わせて、カウントするQAペアを作成する。
RSVLM-QAは13,820枚の画像と162,373枚のVQAペアで構成され、豊富なアノテーションと多様な質問タイプを備えている。
本稿では,データセットの詳細な統計解析と既存のRS VQAベンチマークとの比較を行い,RSVLM-QAアノテーションの深度と広さを強調した。
さらに,6つの主流視覚言語モデル(VLM)のベンチマーク実験を行い,RS領域における現在のVLMの理解と推論能力について,RSLM-QAが効果的に評価し,課題を提起する。
我々は,RS VQAとVLM研究コミュニティにとって,RSVLM-QAが重要な資源となると信じている。
関連論文リスト
- ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering [2.6309739988261795]
本稿では,視覚質問応答(VQA)タスクのための新しいデータセットReasonVQAを提案する。
我々のデータセットは構造化百科事典の知識と自動的に統合され、低コストのフレームワークを用いて構築される。
論文 参考訳(メタデータ) (2025-07-22T09:55:09Z) - AMAQA: A Metadata-based QA Dataset for RAG Systems [7.882922366782987]
AMAQAは、テキストとメタデータを組み合わせたタスクを評価するために設計された、新しいオープンアクセスQAデータセットである。
AMAQAには26の公開Telegramグループから集められた約1100万の英語メッセージが含まれている。
メタデータを活用することで精度が0.12から0.61に向上し、構造化コンテキストの価値が強調される。
論文 参考訳(メタデータ) (2025-05-19T08:59:08Z) - Copy-Move Forgery Detection and Question Answering for Remote Sensing Image [24.984627968280872]
本稿では,Remote Sensing Copy-Move Question Answering (RSCMQA)タスクを紹介する。
従来のRemote Sensing Visual Question Answering (RSVQA)とは異なり、RCCMQAは複雑なタンパリングシナリオの解釈に重点を置いている。
14か国29の異なる地域からの画像からなる,グローバルなRCCMQAデータセットスイートを提示する。
論文 参考訳(メタデータ) (2024-12-03T17:02:40Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。