論文の概要: VQA-Levels: A Hierarchical Approach for Classifying Questions in VQA
- arxiv url: http://arxiv.org/abs/2502.02951v1
- Date: Wed, 05 Feb 2025 07:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:14.127064
- Title: VQA-Levels: A Hierarchical Approach for Classifying Questions in VQA
- Title(参考訳): VQA-Levels: VQAにおける質問の分類のための階層的アプローチ
- Authors: Madhuri Latha Madaka, Chakravarthy Bhagvati,
- Abstract要約: 本稿では、新しいベンチマークデータセットを提案する。VQA-Levelsと呼ばれるパイロットバージョンが準備が整っている。
質問は、低レベルの画像特徴に基づく直接回答から、画像内容全体の高レベルの抽象化を必要とするものまで、7つのレベルに分類される。
提案したデータセットを既存のVQAシステムで初期テストした結果、その成功はレベル1(低レベルの特徴)とレベル2(オブジェクト分類)の質問に大きく依存していることが判明した。
- 参考スコア(独自算出の注目度): 3.9134031118910264
- License:
- Abstract: Designing datasets for Visual Question Answering (VQA) is a difficult and complex task that requires NLP for parsing and computer vision for analysing the relevant aspects of the image for answering the question asked. Several benchmark datasets have been developed by researchers but there are many issues with using them for methodical performance tests. This paper proposes a new benchmark dataset -- a pilot version called VQA-Levels is ready now -- for testing VQA systems systematically and assisting researchers in advancing the field. The questions are classified into seven levels ranging from direct answers based on low-level image features (without needing even a classifier) to those requiring high-level abstraction of the entire image content. The questions in the dataset exhibit one or many of ten properties. Each is categorised into a specific level from 1 to 7. Levels 1 - 3 are directly on the visual content while the remaining levels require extra knowledge about the objects in the image. Each question generally has a unique one or two-word answer. The questions are 'natural' in the sense that a human is likely to ask such a question when seeing the images. An example question at Level 1 is, ``What is the shape of the red colored region in the image?" while at Level 7, it is, ``Why is the man cutting the paper?". Initial testing of the proposed dataset on some of the existing VQA systems reveals that their success is high on Level 1 (low level features) and Level 2 (object classification) questions, least on Level 3 (scene text) followed by Level 6 (extrapolation) and Level 7 (whole scene analysis) questions. The work in this paper will go a long way to systematically analyze VQA systems.
- Abstract(参考訳): VQA(Visual Question Answering)のためのデータセットの設計は、質問に答えるために画像の関連する側面を分析するために、解析とコンピュータビジョンのためにNLPを必要とする困難で複雑なタスクである。
いくつかのベンチマークデータセットが研究者によって開発されているが、体系的なパフォーマンステストに使用するには多くの問題がある。
本稿では、VQAシステムを体系的にテストし、研究者が現場を前進するのを補助する新しいベンチマークデータセット(VQA-Levelsと呼ばれるパイロット版が現在準備されている)を提案する。
質問は、低レベルの画像特徴に基づく直接的な回答(分類器さえ必要としない)から、画像内容全体の高レベルの抽象化を必要とするものまで、7つのレベルに分類される。
データセットの質問は、10のプロパティのうち1つまたは何つかを示す。
それぞれ、特定のレベルを1から7に分類する。
レベル1から3は視覚的内容に直接依存するが、残りのレベルは画像内のオブジェクトに関する追加の知識を必要とする。
各質問は、通常、一語または二語で答える。
この疑問は、人間が画像を見る際にそのような質問をする可能性という意味では「自然な」ものである。
レベル1の例では、「画像中の赤い色の領域の形状は何か?」が、レベル7では「なぜ紙を切る男なのか?」という疑問がある。
提案したデータセットを既存のVQAシステムで初期テストした結果、その成功はレベル1(低レベルの特徴)とレベル2(オブジェクト分類)の質問、少なくともレベル3(シーンテキスト)の質問、レベル6(外挿)とレベル7(全シーン分析)の質問で明らかにされた。
本稿では,VQAシステムを体系的に解析するための長い道のりについて述べる。
関連論文リスト
- SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset [11.729464930866483]
シンプソンズVQA』(シンプソンズVQA)は、ザ・シンプソンズのテレビ番組から派生したVQAの新しいデータセットである。
従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されている。
SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている。
論文 参考訳(メタデータ) (2024-10-30T02:30:40Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。