論文の概要: What Large Language Models Bring to Text-rich VQA?
- arxiv url: http://arxiv.org/abs/2311.07306v1
- Date: Mon, 13 Nov 2023 12:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:24:31.935766
- Title: What Large Language Models Bring to Text-rich VQA?
- Title(参考訳): テキストリッチVQAにどのような大きな言語モデルをもたらすか?
- Authors: Xuejing Liu, Wei Tang, Xinzhe Ni, Jinghui Lu, Rui Zhao, Zechao Li and
Fei Tan
- Abstract要約: テキストリッチVQA(英: Text-rich VQA)は、画像中のテキスト認識に基づく視覚的質問応答(Visual Question Answering)であり、画像の理解とテキスト認識の両方を必要とする。
上記の懸念に対処するために、外部のOCRモデルを用いて画像中のテキストを認識し、Large Language Models (LLMs) を用いて質問に答える。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチなVQAデータセットと比較して、優れたパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 38.569505870771025
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-rich VQA, namely Visual Question Answering based on text recognition in
the images, is a cross-modal task that requires both image comprehension and
text recognition. In this work, we focus on investigating the advantages and
bottlenecks of LLM-based approaches in addressing this problem. To address the
above concern, we separate the vision and language modules, where we leverage
external OCR models to recognize texts in the image and Large Language Models
(LLMs) to answer the question given texts. The whole framework is training-free
benefiting from the in-context ability of LLMs. This pipeline achieved superior
performance compared to the majority of existing Multimodal Large Language
Models (MLLM) on four text-rich VQA datasets. Besides, based on the ablation
study, we find that LLM brings stronger comprehension ability and may introduce
helpful knowledge for the VQA problem. The bottleneck for LLM to address
text-rich VQA problems may primarily lie in visual part. We also combine the
OCR module with MLLMs and pleasantly find that the combination of OCR module
with MLLM also works. It's worth noting that not all MLLMs can comprehend the
OCR information, which provides insights into how to train an MLLM that
preserves the abilities of LLM.
- Abstract(参考訳): テキストリッチなVQA、すなわち画像中のテキスト認識に基づくビジュアル質問回答は、画像理解とテキスト認識の両方を必要とする横断的なタスクである。
本研究では,この問題に対処するLLMベースのアプローチの利点とボトルネックについて検討する。
上記の懸念に対処するため、我々は視覚と言語モジュールを分離し、外部のOCRモデルを利用して画像中のテキストを認識し、Large Language Models (LLMs) で与えられたテキストに答える。
フレームワーク全体が、LLMのコンテキスト内能力の恩恵を受けることなくトレーニングできる。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチVQAデータセットと比較して、優れたパフォーマンスを実現した。
また, アブレーション研究から, LLMはより強力な理解能力をもたらし, VQA問題に有用な知識をもたらす可能性が示唆された。
LLMがテキストリッチなVQA問題に対処するボトルネックは主に視覚的部分にあるかもしれない。
また,OCRモジュールとMLLMを組み合わせることで,OCRモジュールとMLLMの組み合わせも有効であることがわかった。
すべてのmllmがocr情報を理解できるわけではないので、llmの能力を維持するmllmのトレーニング方法についての洞察が得られます。
関連論文リスト
- SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models [21.95962189710859]
本稿では,LibriSQAデータセット上でSpoken Question Answering(SQA)タスクを実行するための軽量なエンドツーエンドフレームワークを提案する。
ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。
我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。
論文 参考訳(メタデータ) (2023-08-20T23:47:23Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。