論文の概要: Encyclopedic VQA: Visual questions about detailed properties of
fine-grained categories
- arxiv url: http://arxiv.org/abs/2306.09224v2
- Date: Mon, 24 Jul 2023 15:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 20:56:19.533276
- Title: Encyclopedic VQA: Visual questions about detailed properties of
fine-grained categories
- Title(参考訳): 百科事典VQA:細粒度カテゴリの詳細な性質に関する視覚的疑問
- Authors: Thomas Mensink, Jasper Uijlings, Lluis Castrejon, Arushi Goel, Felipe
Cadar, Howard Zhou, Fei Sha, Andr\'e Araujo, Vittorio Ferrari
- Abstract要約: Encyclopedic-VQAは大規模な視覚的質問応答データセットである。
それぞれが(最大5つの画像にマッチする221万のユニークな質問+回答のペアを含んでいる。
私たちのデータセットには、Wikipediaから派生した制御された知識ベースがあります。
- 参考スコア(独自算出の注目度): 41.2406955639537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Encyclopedic-VQA, a large scale visual question answering (VQA)
dataset featuring visual questions about detailed properties of fine-grained
categories and instances. It contains 221k unique question+answer pairs each
matched with (up to) 5 images, resulting in a total of 1M VQA samples.
Moreover, our dataset comes with a controlled knowledge base derived from
Wikipedia, marking the evidence to support each answer. Empirically, we show
that our dataset poses a hard challenge for large vision+language models as
they perform poorly on our dataset: PaLI [14] is state-of-the-art on OK-VQA
[37], yet it only achieves 13.0% accuracy on our dataset. Moreover, we
experimentally show that progress on answering our encyclopedic questions can
be achieved by augmenting large models with a mechanism that retrieves relevant
information from the knowledge base. An oracle experiment with perfect
retrieval achieves 87.0% accuracy on the single-hop portion of our dataset, and
an automatic retrieval-augmented prototype yields 48.8%. We believe that our
dataset enables future research on retrieval-augmented vision+language models.
It is available at
https://github.com/google-research/google-research/tree/master/encyclopedic_vqa .
- Abstract(参考訳): 細かなカテゴリやインスタンスの詳細な特性に関する視覚的質問を含む大規模視覚的質問応答(VQA)データセットであるEncyclopedic-VQAを提案する。
221kの1つのq&aペアと5枚の画像が一致し、合計で1mのvqaサンプルが得られた。
さらに、データセットにはウィキペディアから派生した制御された知識ベースがあり、各回答をサポートする証拠をマークしています。
PaLI [14]はOK-VQA [37]の最先端技術ですが、データセットでは13.0%の精度しか達成できません。
さらに,知識ベースから関連情報を抽出する機構により,大規模モデルの強化により,百科事典的質問への回答の進展が達成できることを実験的に示す。
完全検索によるオラクル実験は、データセットのシングルホップ部分において87.0%の精度を実現し、自動検索拡張プロトタイプは48.8%を得る。
私たちのデータセットは、検索によるビジョン+言語モデルの将来の研究を可能にすると信じています。
https://github.com/google-research/google-research/tree/master/encyclopedic_vqa で公開されている。
関連論文リスト
- EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。
ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。
The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文 参考訳(メタデータ) (2024-07-17T16:55:42Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - SnapNTell: Enhancing Entity-Centric Visual Question Answering with
Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。
データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。
提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文 参考訳(メタデータ) (2024-03-07T18:38:17Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - COVIDRead: A Large-scale Question Answering Dataset on COVID-19 [41.23094507923245]
非常に重要なリソースであるCOVIDReadは、SQuAD(Stanford Question Answering dataset)に似たデータセットで、100万以上の質問と回答のペアです。
これは、この非常に珍しい病気に関する一般大衆の問い合わせから、編集者や雑誌編集者による記事管理まで、多くの目的に役立てることができる貴重なリソースである。
いくつかのエンドツーエンドニューラルネットワークベースのベースラインモデルを構築し、最低F1が32.03%、最高F1が37.19%に達する。
論文 参考訳(メタデータ) (2021-10-05T07:38:06Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。