論文の概要: HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial
Images
- arxiv url: http://arxiv.org/abs/2301.09460v1
- Date: Mon, 23 Jan 2023 14:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:25:41.384677
- Title: HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial
Images
- Title(参考訳): HRVQA:高分解能空中画像のためのビジュアル質問応答ベンチマーク
- Authors: Kun Li, George Vosselman, Michael Ying Yang
- Abstract要約: 我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。
航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。
本手法は,従来の最先端手法と比較して優れた性能を実現する。
- 参考スコア(独自算出の注目度): 18.075338835513993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) is an important and challenging multimodal
task in computer vision. Recently, a few efforts have been made to bring VQA
task to aerial images, due to its potential real-world applications in disaster
monitoring, urban planning, and digital earth product generation. However, not
only the huge variation in the appearance, scale and orientation of the
concepts in aerial images, but also the scarcity of the well-annotated datasets
restricts the development of VQA in this domain. In this paper, we introduce a
new dataset, HRVQA, which provides collected 53512 aerial images of 1024*1024
pixels and semi-automatically generated 1070240 QA pairs. To benchmark the
understanding capability of VQA models for aerial images, we evaluate the
relevant methods on HRVQA. Moreover, we propose a novel model, GFTransformer,
with gated attention modules and a mutual fusion module. The experiments show
that the proposed dataset is quite challenging, especially the specific
attribute related questions. Our method achieves superior performance in
comparison to the previous state-of-the-art approaches. The dataset and the
source code will be released at https://hrvqa.nl/.
- Abstract(参考訳): 視覚的質問応答(VQA)はコンピュータビジョンにおいて重要かつ困難なマルチモーダルタスクである。
近年, 災害監視, 都市計画, デジタルアース製品生成における現実的応用の可能性から, VQAタスクを航空画像に適用する試みがいくつか行われている。
しかしながら、空中画像における概念の出現、スケール、配向の大きな変化だけでなく、よく注釈されたデータセットの不足は、この領域におけるVQAの発達を制限する。
本稿では,1024×1024ピクセルと半自動生成1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。
航空画像に対するVQAモデルの理解能力を評価するために,HRVQAの関連手法を評価する。
さらに,ゲート型アテンションモジュールと相互融合モジュールを備えた新しいモデルgftransformerを提案する。
実験の結果,提案したデータセットは,特に属性関連質問において非常に難しいことがわかった。
本手法は従来の最先端手法と比較して優れた性能を実現する。
データセットとソースコードはhttps://hrvqa.nl/でリリースされる。
関連論文リスト
- From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question
Answering [84.34040957802064]
本稿では,映像レベルの情報と概念的知識を統一し,シーンの協調推論を行う新しい視覚的質問応答手法であるVQA-GNNを提案する。
VCRタスクの評価では、従来のシーングラフベースのTrans-VLモデルよりも4%以上優れており、Trans-VLを融合したモデルでは、さらに2%の精度向上を実現している。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA
Models [45.777326168922635]
本稿では,新たな大規模VQAベンチマークであるAdversarial VQAを紹介する。
非熟練アノテータは比較的容易にSOTA VQAモデルに攻撃できることがわかった。
大規模な事前訓練モデルと敵のトレーニング方法はどちらも、標準的なVQA v2データセットで達成できるものよりもはるかに低いパフォーマンスしか達成できない。
論文 参考訳(メタデータ) (2021-06-01T05:54:41Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。