論文の概要: A survey on VQA_Datasets and Approaches
- arxiv url: http://arxiv.org/abs/2105.00421v1
- Date: Sun, 2 May 2021 08:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 03:06:14.085915
- Title: A survey on VQA_Datasets and Approaches
- Title(参考訳): VQA_Datasetsとアプローチに関する調査
- Authors: Yeyun Zou, Qiyu Xie
- Abstract要約: 視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) is a task that combines both the techniques
of computer vision and natural language processing. It requires models to
answer a text-based question according to the information contained in a
visual. In recent years, the research field of VQA has been expanded. Research
that focuses on the VQA, examining the reasoning ability and VQA on scientific
diagrams, has also been explored more. Meanwhile, more multimodal feature
fusion mechanisms have been proposed. This paper will review and analyze
existing datasets, metrics, and models proposed for the VQA task.
- Abstract(参考訳): 視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の両方の技法を組み合わせたタスクである。
ビジュアルに含まれる情報に応じて、テキストベースの質問に答えるモデルが必要となる。
近年、VQAの研究分野が拡大している。
VQAに焦点を当てた科学図の推論能力とVQAについても研究が進められている。
一方で、よりマルチモーダルな特徴融合機構が提案されている。
本稿では,VQAタスクに提案されている既存のデータセット,メトリクス,モデルについてレビューし,分析する。
関連論文リスト
- Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey [17.33078069581465]
VQA(Visual Question Answering)は、自然言語処理とコンピュータビジョン技術を組み合わせた課題である。
この調査は、画像とテキストの自然言語理解の最新の合成を提供する。
論文 参考訳(メタデータ) (2024-11-26T16:21:03Z) - From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities [2.0681376988193843]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - What's Different between Visual Question Answering for Machine
"Understanding" Versus for Accessibility? [8.373151777137792]
視覚的質問応答(VQA)では、機械は関連する画像が与えられた質問に答えなければならない。
各種VQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価する。
本研究は,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2022-10-26T18:23:53Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。