論文の概要: From Image to Language: A Critical Analysis of Visual Question Answering
(VQA) Approaches, Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2311.00308v1
- Date: Wed, 1 Nov 2023 05:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:46:19.296634
- Title: From Image to Language: A Critical Analysis of Visual Question Answering
(VQA) Approaches, Challenges, and Opportunities
- Title(参考訳): 画像から言語へ:視覚質問回答(VQA)アプローチ,課題,機会の批判的分析
- Authors: Md Farhan Ishmam, Md Sakib Hossain Shovon, M.F. Mridha, Nilanjan Dey
- Abstract要約: この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
- 参考スコア(独自算出の注目度): 2.259291861960906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multimodal task of Visual Question Answering (VQA) encompassing elements
of Computer Vision (CV) and Natural Language Processing (NLP), aims to generate
answers to questions on any visual input. Over time, the scope of VQA has
expanded from datasets focusing on an extensive collection of natural images to
datasets featuring synthetic images, video, 3D environments, and various other
visual inputs. The emergence of large pre-trained networks has shifted the
early VQA approaches relying on feature extraction and fusion schemes to vision
language pre-training (VLP) techniques. However, there is a lack of
comprehensive surveys that encompass both traditional VQA architectures and
contemporary VLP-based methods. Furthermore, the VLP challenges in the lens of
VQA haven't been thoroughly explored, leaving room for potential open problems
to emerge. Our work presents a survey in the domain of VQA that delves into the
intricacies of VQA datasets and methods over the field's history, introduces a
detailed taxonomy to categorize the facets of VQA, and highlights the recent
trends, challenges, and scopes for improvement. We further generalize VQA to
multimodal question answering, explore tasks related to VQA, and present a set
of open problems for future investigation. The work aims to navigate both
beginners and experts by shedding light on the potential avenues of research
and expanding the boundaries of the field.
- Abstract(参考訳): コンピュータビジョン(cv)と自然言語処理(nlp)の要素を包含する視覚質問応答(vqa)のマルチモーダルタスクは、あらゆる視覚入力で質問に対する回答を生成することを目的としている。
やがて、vqaの範囲は、自然画像の広範なコレクションに焦点を当てたデータセットから、合成画像、ビデオ、3d環境、その他様々な視覚入力を含むデータセットへと拡大した。
大規模事前学習ネットワークの出現は、視覚言語事前学習(VLP)技術に特徴抽出と融合スキームに依存する初期のVQAアプローチに移行した。
しかし、従来のVQAアーキテクチャと現代のVLPベースの手法の両方を包含する包括的調査が欠如している。
さらに、VQAのレンズにおけるVLPの課題は徹底的に検討されておらず、潜在的なオープンな問題が発生する余地を残している。
本研究は,VQA領域におけるVQAデータセットと手法の複雑さを考察し,VQAの側面を分類するための詳細な分類法を導入し,最近の傾向,課題,改善のスコープを明らかにする。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
この研究の目的は、初心者と専門家の両方を、研究の潜在的な道筋に光を当て、フィールドの境界を広げることである。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - An experimental study of the vision-bottleneck in VQA [17.132865538874352]
視覚質問応答(VQA)における視覚ブロックの検討
画像から抽出した視覚オブジェクトの量と品質を実験する。
また,質問に答えるために必要な対象に関する情報を組み込むための2つの方法の影響についても検討した。
論文 参考訳(メタデータ) (2022-02-14T16:43:32Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Recent Advances in Video Question Answering: A Review of Datasets and
Methods [0.0]
VQAはビデオシーンから時間的・空間的な情報を検索し、解釈するのに役立つ。
我々の知る限りでは、VQAタスクに対する以前の調査は行われていない。
論文 参考訳(メタデータ) (2021-01-15T03:26:24Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。