論文の概要: A Dataset and Baselines for Visual Question Answering on Art
- arxiv url: http://arxiv.org/abs/2008.12520v1
- Date: Fri, 28 Aug 2020 07:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:19:57.865453
- Title: A Dataset and Baselines for Visual Question Answering on Art
- Title(参考訳): アートに関する視覚的質問応答のためのデータセットとベースライン
- Authors: Noa Garcia, Chentao Ye, Zihua Liu, Qingtao Hu, Mayu Otani, Chenhui
Chu, Yuta Nakashima, Teruko Mitamura
- Abstract要約: AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介します。
質問応答(QA)ペアは、最先端の質問生成方法を用いて自動的に生成される。
我々のデータセットは本質的に、視覚的(ペイントベース)と知識的(ストーリーベース)の質問から成り立っている。
- 参考スコア(独自算出の注目度): 33.14114180168856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering questions related to art pieces (paintings) is a difficult task, as
it implies the understanding of not only the visual information that is shown
in the picture, but also the contextual knowledge that is acquired through the
study of the history of art. In this work, we introduce our first attempt
towards building a new dataset, coined AQUA (Art QUestion Answering). The
question-answer (QA) pairs are automatically generated using state-of-the-art
question generation methods based on paintings and comments provided in an
existing art understanding dataset. The QA pairs are cleansed by crowdsourcing
workers with respect to their grammatical correctness, answerability, and
answers' correctness. Our dataset inherently consists of visual
(painting-based) and knowledge (comment-based) questions. We also present a
two-branch model as baseline, where the visual and knowledge questions are
handled independently. We extensively compare our baseline model against the
state-of-the-art models for question answering, and we provide a comprehensive
study about the challenges and potential future directions for visual question
answering on art.
- Abstract(参考訳): 美術作品(絵画)に関する質問への回答は、絵に示されている視覚情報だけでなく、美術史の研究を通じて得られた文脈知識の理解を意図しているため、難しい作業である。
本稿では,AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介する。
既存のアート理解データセットで提供される絵画やコメントに基づいて、最先端の質問生成手法を用いて、質問者ペア(qa)を自動的に生成する。
QAペアは、文法的正しさ、答え可能性、答えの正しさに関して、クラウドソーシング作業員によって掃除される。
私たちのデータセットは本質的にビジュアル(ペイントベース)と知識(コミットベース)の質問で構成されています。
また,視覚と知識の質問を独立して処理するベースラインとして,2分岐モデルを提案する。
我々は,質問応答の最先端モデルと比較し,視覚的質問応答の課題と今後の方向性について包括的に検討する。
関連論文リスト
- Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Can Open Domain Question Answering Systems Answer Visual Knowledge
Questions? [7.442099405543527]
画像中のエンティティを参照するdeictic参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直すことができる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本稿では, (a) 画像解析, (b) 質問の書き直し, (c) テキストによる質問応答に既存のシステムを再利用して, 視覚的な質問に答える潜在的データ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:47:40Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Visuo-Linguistic Question Answering (VLQA) Challenge [47.54738740910987]
与えられた画像-テキストのモダリティに関する共同推論を導出する新しいタスクを提案する。
本稿では,VLQA問題コーパスを質問応答設定にコンパイルする。
論文 参考訳(メタデータ) (2020-05-01T12:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。