論文の概要: Visual Question Answering on Image Sets
- arxiv url: http://arxiv.org/abs/2008.11976v1
- Date: Thu, 27 Aug 2020 08:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:02:32.953392
- Title: Visual Question Answering on Image Sets
- Title(参考訳): 画像集合に関する視覚的質問応答
- Authors: Ankan Bansal, Yuting Zhang, Rama Chellappa
- Abstract要約: 本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
- 参考スコア(独自算出の注目度): 70.4472272672716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of Image-Set Visual Question Answering (ISVQA), which
generalizes the commonly studied single-image VQA problem to multi-image
settings. Taking a natural language question and a set of images as input, it
aims to answer the question based on the content of the images. The questions
can be about objects and relationships in one or more images or about the
entire scene depicted by the image set. To enable research in this new topic,
we introduce two ISVQA datasets - indoor and outdoor scenes. They simulate the
real-world scenarios of indoor image collections and multiple car-mounted
cameras, respectively. The indoor-scene dataset contains 91,479 human annotated
questions for 48,138 image sets, and the outdoor-scene dataset has 49,617
questions for 12,746 image sets. We analyze the properties of the two datasets,
including question-and-answer distributions, types of questions, biases in
dataset, and question-image dependencies. We also build new baseline models to
investigate new research challenges in ISVQA.
- Abstract(参考訳): 本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
そこで本研究では,屋内と屋外の2つのisvqaデータセットを紹介する。
彼らはそれぞれ、屋内画像収集と複数の車載カメラの現実世界のシナリオをシミュレートする。
室内シーンデータセットは48,138の画像セットに対して91,479人の注釈付き質問を含む。
質問と回答の分布,質問の種類,データセットのバイアス,質問画像依存性など,2つのデータセットの特性を分析する。
ISVQAにおける新たな研究課題を調査するために,新たなベースラインモデルを構築した。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - StackOverflowVQA: Stack Overflow Visual Question Answering Dataset [0.04096453902709291]
本研究は,質問自体に加えて,画像の理解が必要な質問に焦点をあてる。
StackOverflowVQAデータセットには、1つ以上の付随するイメージを持つStackOverflowからの質問が含まれている。
論文 参考訳(メタデータ) (2024-05-17T12:30:23Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Toloka Visual Question Answering Benchmark [7.71562336736357]
Toloka Visual Question Answeringは、機械学習システムのパフォーマンスと人間のレベルの専門知識を比較するための、クラウドソースによる新しいデータセットである。
私たちのデータセットには45,199対のイメージと質問が含まれており、真理境界ボックスを備え、列車と2つのテストサブセットに分割されています。
論文 参考訳(メタデータ) (2023-09-28T15:18:35Z) - Answer Mining from a Pool of Images: Towards Retrieval-Based Visual
Question Answering [7.3532068640624395]
本研究では,関連性のある無関係な画像のプールから回答を抽出しなければならない状況下で,視覚的質問応答について検討する。
そこで我々は,疑問を呈し,関連エンコーダを用いて画像検索を行うMulti Image BART (MI-BART) を提案する。
提案手法は,提案したデータセット,すなわちRETVQAにおいて76.5%の精度と79.3%の流速を実現する。
論文 参考訳(メタデータ) (2023-06-29T06:22:43Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。