論文の概要: A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge
- arxiv url: http://arxiv.org/abs/2206.01718v1
- Date: Fri, 3 Jun 2022 17:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 12:59:19.060131
- Title: A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge
- Title(参考訳): A-OKVQA:世界知識を用いた視覚質問応答ベンチマーク
- Authors: Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino,
Roozbeh Mottaghi
- Abstract要約: A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
- 参考スコア(独自算出の注目度): 39.788346536244504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Visual Question Answering (VQA) task aspires to provide a meaningful
testbed for the development of AI models that can jointly reason over visual
and natural language inputs. Despite a proliferation of VQA datasets, this goal
is hindered by a set of common limitations. These include a reliance on
relatively simplistic questions that are repetitive in both concepts and
linguistic structure, little world knowledge needed outside of the paired
image, and limited reasoning required to arrive at the correct answer. We
introduce A-OKVQA, a crowdsourced dataset composed of a diverse set of about
25K questions requiring a broad base of commonsense and world knowledge to
answer. In contrast to the existing knowledge-based VQA datasets, the questions
generally cannot be answered by simply querying a knowledge base, and instead
require some form of commonsense reasoning about the scene depicted in the
image. We demonstrate the potential of this new dataset through a detailed
analysis of its contents and baseline performance measurements over a variety
of state-of-the-art vision-language models. Project page:
http://a-okvqa.allenai.org/
- Abstract(参考訳): VQA(Visual Question Answering)タスクは、視覚と自然言語の入力を共同で推論できるAIモデルの開発に意味のあるテストベッドを提供することを目指している。
VQAデータセットの急増にもかかわらず、この目標には共通の制限が伴う。
これらには、概念と言語構造の両方において反復的な比較的単純化された質問への依存、ペア画像の外に必要な世界の知識の不足、正しい答えに到達するために必要な限定的な推論が含まれる。
A-OKVQA(A-OKVQA)は,広義のコモンセンスと世界知識を必要とする,約25万の質問からなるクラウドソーシングデータセットである。
既存の知識ベースのvqaデータセットとは対照的に、一般的に質問は、単に知識ベースをクエリするだけでは答えられない。
本稿では,その内容の詳細な分析と,最先端の視覚言語モデル上でのベースライン性能測定を通じて,この新しいデータセットの可能性を示す。
プロジェクトページ: http://a-okvqa.allenai.org/
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing [20.117014315684287]
我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
論文 参考訳(メタデータ) (2020-04-08T00:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。