論文の概要: Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey
- arxiv url: http://arxiv.org/abs/2411.17558v1
- Date: Tue, 26 Nov 2024 16:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:16.114970
- Title: Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey
- Title(参考訳): 視覚的質問応答における自然言語理解とMLLMによる推論
- Authors: Jiayi Kuang, Jingyou Xie, Haohao Luo, Ronghao Li, Zhe Xu, Xianfeng Cheng, Yinghui Li, Xika Lin, Ying Shen,
- Abstract要約: VQA(Visual Question Answering)は、自然言語処理とコンピュータビジョン技術を組み合わせた課題である。
この調査は、画像とテキストの自然言語理解の最新の合成を提供する。
- 参考スコア(独自算出の注目度): 17.33078069581465
- License:
- Abstract: Visual Question Answering (VQA) is a challenge task that combines natural language processing and computer vision techniques and gradually becomes a benchmark test task in multimodal large language models (MLLMs). The goal of our survey is to provide an overview of the development of VQA and a detailed description of the latest models with high timeliness. This survey gives an up-to-date synthesis of natural language understanding of images and text, as well as the knowledge reasoning module based on image-question information on the core VQA tasks. In addition, we elaborate on recent advances in extracting and fusing modal information with vision-language pretraining models and multimodal large language models in VQA. We also exhaustively review the progress of knowledge reasoning in VQA by detailing the extraction of internal knowledge and the introduction of external knowledge. Finally, we present the datasets of VQA and different evaluation metrics and discuss possible directions for future work.
- Abstract(参考訳): VQA(Visual Question Answering)は、自然言語処理とコンピュータビジョン技術を組み合わせた課題タスクであり、徐々にMLLM(Multimodal Large Language Model)のベンチマークテストタスクとなる。
調査の目的は、VQAの開発の概要と、最新のモデルと高いタイムラインの詳細な記述を提供することである。
本調査では、画像とテキストの自然言語理解の最新の合成と、コアVQAタスクの画像検索情報に基づく知識推論モジュールについて述べる。
さらに,VQAにおける視覚言語事前学習モデルとマルチモーダル大言語モデルを用いたモーダル情報の抽出と融合の最近の進歩について詳しく述べる。
また、内部知識の抽出と外部知識の導入を詳述し、VQAにおける知識推論の進展を概観する。
最後に、VQAと異なる評価指標のデータセットを示し、今後の作業の方向性について議論する。
関連論文リスト
- Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - BOK-VQA: Bilingual outside Knowledge-Based Visual Question Answering via Graph Representation Pretraining [5.032291939291926]
本稿では,多言語化に拡張可能なバイリンガル外部知識VQAデータセットを提案する。
提案したデータには、17K画像、韓国語と英語の問合せ対、問合せ内容に関連する知識情報の280Kインスタンスが含まれる。
また,BOK-VQAデータの知識情報をグラフ埋め込み形式で事前学習することにより,知識情報をVQAシステムに効果的に注入できるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T08:31:42Z) - From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities [2.0681376988193843]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。