論文の概要: A survey on VQA_Datasets and Approaches
- arxiv url: http://arxiv.org/abs/2105.00421v1
- Date: Sun, 2 May 2021 08:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 03:06:14.085915
- Title: A survey on VQA_Datasets and Approaches
- Title(参考訳): VQA_Datasetsとアプローチに関する調査
- Authors: Yeyun Zou, Qiyu Xie
- Abstract要約: 視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) is a task that combines both the techniques
of computer vision and natural language processing. It requires models to
answer a text-based question according to the information contained in a
visual. In recent years, the research field of VQA has been expanded. Research
that focuses on the VQA, examining the reasoning ability and VQA on scientific
diagrams, has also been explored more. Meanwhile, more multimodal feature
fusion mechanisms have been proposed. This paper will review and analyze
existing datasets, metrics, and models proposed for the VQA task.
- Abstract(参考訳): 視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の両方の技法を組み合わせたタスクである。
ビジュアルに含まれる情報に応じて、テキストベースの質問に答えるモデルが必要となる。
近年、VQAの研究分野が拡大している。
VQAに焦点を当てた科学図の推論能力とVQAについても研究が進められている。
一方で、よりマルチモーダルな特徴融合機構が提案されている。
本稿では,VQAタスクに提案されている既存のデータセット,メトリクス,モデルについてレビューし,分析する。
関連論文リスト
- What's Different between Visual Question Answering for Machine
"Understanding" Versus for Accessibility? [8.373151777137792]
視覚的質問応答(VQA)では、機械は関連する画像が与えられた質問に答えなければならない。
各種VQAモデルを評価することにより,マシンの"理解"データセット(VQA-v2)とアクセシビリティデータセット(VizWiz)の相違性を評価する。
本研究は,VQAにおけるアクセシビリティの機会と課題について考察し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2022-10-26T18:23:53Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Medical Visual Question Answering: A Survey [37.154500993984264]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Visual Question Answering: which investigated applications? [14.332672914799272]
VQAでは、同じメディアのセマンティック情報は、自然言語で表現された質問によって暗示されるセマンティックスと比較されなければならない。
本稿では、アプリケーションドメインにバインドされたデータに適したベンチマークとして、現実のアプリケーションに焦点を当てた提案について考察する。
論文 参考訳(メタデータ) (2021-03-04T10:38:06Z) - Recent Advances in Video Question Answering: A Review of Datasets and
Methods [0.0]
VQAはビデオシーンから時間的・空間的な情報を検索し、解釈するのに役立つ。
我々の知る限りでは、VQAタスクに対する以前の調査は行われていない。
論文 参考訳(メタデータ) (2021-01-15T03:26:24Z) - Retrieving and Reading: A Comprehensive Survey on Open-domain Question
Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。
Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。
次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文 参考訳(メタデータ) (2021-01-04T04:47:46Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。