論文の概要: SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset
- arxiv url: http://arxiv.org/abs/2410.22648v1
- Date: Wed, 30 Oct 2024 02:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:47.263278
- Title: SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset
- Title(参考訳): SimpsonsVQA: 階層型データセットによる質問ベースの学習の強化
- Authors: Ngoc Dung Huynh, Mohamed Reda Bouadjenek, Sunil Aryal, Imran Razzak, Hakim Hacid,
- Abstract要約: シンプソンズVQA』(シンプソンズVQA)は、ザ・シンプソンズのテレビ番組から派生したVQAの新しいデータセットである。
従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されている。
SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている。
- 参考スコア(独自算出の注目度): 11.729464930866483
- License:
- Abstract: Visual Question Answering (VQA) has emerged as a promising area of research to develop AI-based systems for enabling interactive and immersive learning. Numerous VQA datasets have been introduced to facilitate various tasks, such as answering questions or identifying unanswerable ones. However, most of these datasets are constructed using real-world images, leaving the performance of existing models on cartoon images largely unexplored. Hence, in this paper, we present "SimpsonsVQA", a novel dataset for VQA derived from The Simpsons TV show, designed to promote inquiry-based learning. Our dataset is specifically designed to address not only the traditional VQA task but also to identify irrelevant questions related to images, as well as the reverse scenario where a user provides an answer to a question that the system must evaluate (e.g., as correct, incorrect, or ambiguous). It aims to cater to various visual applications, harnessing the visual content of "The Simpsons" to create engaging and informative interactive systems. SimpsonsVQA contains approximately 23K images, 166K QA pairs, and 500K judgments (https://simpsonsvqa.org). Our experiments show that current large vision-language models like ChatGPT4o underperform in zero-shot settings across all three tasks, highlighting the dataset's value for improving model performance on cartoon images. We anticipate that SimpsonsVQA will inspire further research, innovation, and advancements in inquiry-based learning VQA.
- Abstract(参考訳): VQA(Visual Question Answering)は、インタラクティブで没入的な学習を可能にするAIベースのシステムを開発するための、有望な研究分野として登場した。
VQAデータセットは、質問に答えたり、解決不可能なものを特定するなど、さまざまなタスクを容易にするために導入された。
しかし、これらのデータセットのほとんどは現実世界の画像を用いて構築されており、既存の漫画画像のモデルの性能はほとんど解明されていない。
そこで本研究では,ザ・シンプソンズTV番組から派生したVQAのための新しいデータセットである"SimpsonsVQA"を提案する。
我々のデータセットは、従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されています。
The Simpsons" の視覚的コンテンツを活用して、魅力的で情報に富むインタラクティブなシステムを構築することを目的としている。
SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている(https://simpsonsvqa.org)。
実験の結果,ChatGPT4oのような現在の大規模視覚言語モデルは,3つのタスクすべてでゼロショット設定では性能が低く,マンガ画像のモデル性能を改善するためのデータセットの価値が強調された。
我々は,SimpsonsVQAが調査に基づく学習VQAのさらなる研究,革新,進歩を促すことを期待する。
関連論文リスト
- VQA$^2$:Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメントは、もともとは定量的ビデオ品質アセスメントに重点を置いていた。
現在は、より包括的な視覚的品質理解タスクへと進化している。
本稿では,映像品質評価に焦点をあてた視覚的質問応答指導データセットについて紹介する。
映像品質評価と映像品質理解の両課題について広範な実験を行った。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial
Images [18.075338835513993]
我々は,1024×1024ピクセルと1070240QAペアの53512個の空中画像を提供する新しいデータセットであるHRVQAを紹介する。
航空画像に対するVQAモデルの理解能力を評価するため,HRVQAにおける関連手法の評価を行った。
本手法は,従来の最先端手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-01-23T14:36:38Z) - Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for
Knowledge-based Visual Question Answering [18.926582410644375]
知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。
動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。
我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-06T15:19:39Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。