Fugu-MT 論文翻訳(概要): HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images

論文の概要: HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images

arxiv url: http://arxiv.org/abs/2301.09460v1
Date: Mon, 23 Jan 2023 14:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-24 13:25:41.384677
Title: HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images
Title（参考訳）: HRVQA:高分解能空中画像のためのビジュアル質問応答ベンチマーク
Authors: Kun Li, George Vosselman, Michael Ying Yang
Abstract要約: 我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。本手法は,従来の最先端手法と比較して優れた性能を実現する。
参考スコア（独自算出の注目度）: 18.075338835513993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual question answering (VQA) is an important and challenging multimodal task in computer vision. Recently, a few efforts have been made to bring VQA task to aerial images, due to its potential real-world applications in disaster monitoring, urban planning, and digital earth product generation. However, not only the huge variation in the appearance, scale and orientation of the concepts in aerial images, but also the scarcity of the well-annotated datasets restricts the development of VQA in this domain. In this paper, we introduce a new dataset, HRVQA, which provides collected 53512 aerial images of 1024*1024 pixels and semi-automatically generated 1070240 QA pairs. To benchmark the understanding capability of VQA models for aerial images, we evaluate the relevant methods on HRVQA. Moreover, we propose a novel model, GFTransformer, with gated attention modules and a mutual fusion module. The experiments show that the proposed dataset is quite challenging, especially the specific attribute related questions. Our method achieves superior performance in comparison to the previous state-of-the-art approaches. The dataset and the source code will be released at https://hrvqa.nl/.
Abstract（参考訳）: 視覚的質問応答(VQA)はコンピュータビジョンにおいて重要かつ困難なマルチモーダルタスクである。近年, 災害監視, 都市計画, デジタルアース製品生成における現実的応用の可能性から, VQAタスクを航空画像に適用する試みがいくつか行われている。しかしながら、空中画像における概念の出現、スケール、配向の大きな変化だけでなく、よく注釈されたデータセットの不足は、この領域におけるVQAの発達を制限する。本稿では,1024×1024ピクセルと半自動生成1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。航空画像に対するVQAモデルの理解能力を評価するために,HRVQAの関連手法を評価する。さらに,ゲート型アテンションモジュールと相互融合モジュールを備えた新しいモデルgftransformerを提案する。実験の結果,提案したデータセットは,特に属性関連質問において非常に難しいことがわかった。本手法は従来の最先端手法と比較して優れた性能を実現する。データセットとソースコードはhttps://hrvqa.nl/でリリースされる。

関連論文リスト

SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset [11.729464930866483]
シンプソンズVQA』(シンプソンズVQA)は、ザ・シンプソンズのテレビ番組から派生したVQAの新しいデータセットである。従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されている。 SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている。
論文参考訳（メタデータ） (2024-10-30T02:30:40Z)
Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。野生における画像品質評価(DepictQA-Wild)について紹介する。本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文参考訳（メタデータ） (2024-05-29T07:49:15Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文参考訳（メタデータ） (2023-06-06T18:00:47Z)
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文参考訳（メタデータ） (2023-05-24T07:40:50Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2023-05-07T03:59:31Z)
COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文参考訳（メタデータ） (2022-01-10T13:51:35Z)
Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文参考訳（メタデータ） (2021-06-04T06:25:32Z)
Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文参考訳（メタデータ） (2020-01-10T08:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。