論文の概要: Visual question answering: from early developments to recent advances -- a survey
- arxiv url: http://arxiv.org/abs/2501.03939v1
- Date: Tue, 07 Jan 2025 17:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:47.241326
- Title: Visual question answering: from early developments to recent advances -- a survey
- Title(参考訳): 視覚的質問に答える - 初期の発展から最近の進歩 - 調査より
- Authors: Ngoc Dung Huynh, Mohamed Reda Bouadjenek, Sunil Aryal, Imran Razzak, Hakim Hacid,
- Abstract要約: VQA(Visual Question Answering)は、機械が視覚コンテンツに関する質問に答えることを目的とした、進化した研究分野である。
VQAは、インタラクティブな教育ツール、医療画像診断、カスタマーサービス、エンターテイメント、ソーシャルメディアキャプションなど、幅広い用途で注目されている。
- 参考スコア(独自算出の注目度): 11.729464930866483
- License:
- Abstract: Visual Question Answering (VQA) is an evolving research field aimed at enabling machines to answer questions about visual content by integrating image and language processing techniques such as feature extraction, object detection, text embedding, natural language understanding, and language generation. With the growth of multimodal data research, VQA has gained significant attention due to its broad applications, including interactive educational tools, medical image diagnosis, customer service, entertainment, and social media captioning. Additionally, VQA plays a vital role in assisting visually impaired individuals by generating descriptive content from images. This survey introduces a taxonomy of VQA architectures, categorizing them based on design choices and key components to facilitate comparative analysis and evaluation. We review major VQA approaches, focusing on deep learning-based methods, and explore the emerging field of Large Visual Language Models (LVLMs) that have demonstrated success in multimodal tasks like VQA. The paper further examines available datasets and evaluation metrics essential for measuring VQA system performance, followed by an exploration of real-world VQA applications. Finally, we highlight ongoing challenges and future directions in VQA research, presenting open questions and potential areas for further development. This survey serves as a comprehensive resource for researchers and practitioners interested in the latest advancements and future
- Abstract(参考訳): VQA(Visual Question Answering)は、特徴抽出、オブジェクト検出、テキスト埋め込み、自然言語理解、言語生成などの画像および言語処理技術を統合することで、視覚コンテンツに関する質問に答えることを目的とした、進化した研究分野である。
マルチモーダルデータ研究の進展に伴い、VQAはインタラクティブな教育ツール、医用画像診断、カスタマーサービス、エンターテイメント、ソーシャルメディアキャプションなど幅広い用途で注目されている。
さらに、VQAは画像から記述内容を生成することで視覚障害者を支援する上で重要な役割を担っている。
この調査では、VQAアーキテクチャの分類を導入し、設計選択と重要なコンポーネントに基づいて分類し、比較分析と評価を容易にする。
本稿では,VQAのようなマルチモーダルタスクの成功を実証したLVLM(Large Visual Language Models)の新たな分野を探求する。
さらに,VQAシステムの性能測定に必要なデータセットと評価指標について検討し,続いて実世界のVQAアプリケーションについて検討する。
最後に、VQA研究における現在進行中の課題と今後の方向性を強調し、今後の発展に向けたオープンな質問と潜在的な領域を提示する。
この調査は、最新の進歩と将来に関心のある研究者や実践者のための総合的なリソースとして役立ちます。
関連論文リスト
- Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey [17.33078069581465]
VQA(Visual Question Answering)は、自然言語処理とコンピュータビジョン技術を組み合わせた課題である。
この調査は、画像とテキストの自然言語理解の最新の合成を提供する。
論文 参考訳(メタデータ) (2024-11-26T16:21:03Z) - From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities [2.0681376988193843]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Retrieving and Reading: A Comprehensive Survey on Open-domain Question
Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。
Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。
次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文 参考訳(メタデータ) (2021-01-04T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。