論文の概要: A Dataset and Baselines for Visual Question Answering on Art
- arxiv url: http://arxiv.org/abs/2008.12520v1
- Date: Fri, 28 Aug 2020 07:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:19:57.865453
- Title: A Dataset and Baselines for Visual Question Answering on Art
- Title(参考訳): アートに関する視覚的質問応答のためのデータセットとベースライン
- Authors: Noa Garcia, Chentao Ye, Zihua Liu, Qingtao Hu, Mayu Otani, Chenhui
Chu, Yuta Nakashima, Teruko Mitamura
- Abstract要約: AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介します。
質問応答(QA)ペアは、最先端の質問生成方法を用いて自動的に生成される。
我々のデータセットは本質的に、視覚的(ペイントベース)と知識的(ストーリーベース)の質問から成り立っている。
- 参考スコア(独自算出の注目度): 33.14114180168856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering questions related to art pieces (paintings) is a difficult task, as
it implies the understanding of not only the visual information that is shown
in the picture, but also the contextual knowledge that is acquired through the
study of the history of art. In this work, we introduce our first attempt
towards building a new dataset, coined AQUA (Art QUestion Answering). The
question-answer (QA) pairs are automatically generated using state-of-the-art
question generation methods based on paintings and comments provided in an
existing art understanding dataset. The QA pairs are cleansed by crowdsourcing
workers with respect to their grammatical correctness, answerability, and
answers' correctness. Our dataset inherently consists of visual
(painting-based) and knowledge (comment-based) questions. We also present a
two-branch model as baseline, where the visual and knowledge questions are
handled independently. We extensively compare our baseline model against the
state-of-the-art models for question answering, and we provide a comprehensive
study about the challenges and potential future directions for visual question
answering on art.
- Abstract(参考訳): 美術作品(絵画)に関する質問への回答は、絵に示されている視覚情報だけでなく、美術史の研究を通じて得られた文脈知識の理解を意図しているため、難しい作業である。
本稿では,AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介する。
既存のアート理解データセットで提供される絵画やコメントに基づいて、最先端の質問生成手法を用いて、質問者ペア(qa)を自動的に生成する。
QAペアは、文法的正しさ、答え可能性、答えの正しさに関して、クラウドソーシング作業員によって掃除される。
私たちのデータセットは本質的にビジュアル(ペイントベース)と知識(コミットベース)の質問で構成されています。
また,視覚と知識の質問を独立して処理するベースラインとして,2分岐モデルを提案する。
我々は,質問応答の最先端モデルと比較し,視覚的質問応答の課題と今後の方向性について包括的に検討する。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。