Fugu-MT 論文翻訳(概要): BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

論文の概要: BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

arxiv url: http://arxiv.org/abs/2308.09936v2
Date: Wed, 22 Nov 2023 04:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 18:40:30.694770
Title: BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions
Title（参考訳）: BLIVA: テキストリッチ視覚質問の処理を改善するためのシンプルなマルチモーダルLLM
Authors: Wenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu
Abstract要約: 視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。 BLIVAは、テキストの有無に関わらず、現実世界の画像をデコードする重要な能力を示す。
参考スコア（独自算出の注目度）: 41.825273034537204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Language Models (VLMs), which extend Large Language Models (LLM) by incorporating visual understanding capability, have demonstrated significant advancements in addressing open-ended visual question-answering (VQA) tasks. However, these models cannot accurately interpret images infused with text, a common occurrence in real-world scenarios. Standard procedures for extracting information from images often involve learning a fixed set of query embeddings. These embeddings are designed to encapsulate image contexts and are later used as soft prompt inputs in LLMs. Yet, this process is limited to the token count, potentially curtailing the recognition of scenes with text-rich context. To improve upon them, the present study introduces BLIVA: an augmented version of InstructBLIP with Visual Assistant. BLIVA incorporates the query embeddings from InstructBLIP and also directly projects encoded patch embeddings into the LLM, a technique inspired by LLaVA. This approach assists the model to capture intricate details potentially missed during the query decoding process. Empirical evidence demonstrates that our model, BLIVA, significantly enhances performance in processing text-rich VQA benchmarks (up to 17.76% in OCR-VQA benchmark) and in undertaking general (not particularly text-rich) VQA benchmarks (up to 7.9% in Visual Spatial Reasoning benchmark), comparing to our baseline InstructBLIP. BLIVA demonstrates significant capability in decoding real-world images, irrespective of text presence. To demonstrate the broad industry applications enabled by BLIVA, we evaluate the model using a new dataset comprising YouTube thumbnails paired with question-answer sets across 11 diverse categories. For researchers interested in further exploration, our code and models are freely accessible at https://github.com/mlpc-ucsd/BLIVA.
Abstract（参考訳）: 視覚言語モデル(VLM)は、視覚的理解機能を組み込んだ大規模言語モデル(LLM)を拡張し、オープンな視覚的質問応答(VQA)タスクに対処する上で大きな進歩を見せている。しかし、これらのモデルはテキストに溶け込んだ画像を正確に解釈することはできない。画像から情報を抽出する標準的な手順は、しばしば一定のクエリの埋め込みを学習する。これらの埋め込みは画像コンテキストをカプセル化するために設計され、後にLSMのソフトプロンプト入力として使われる。しかし、このプロセスはトークン数に限定されており、テキストに富んだコンテキストでシーンの認識を削減できる可能性がある。そこで本研究では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。 BLIVAは、InstructBLIPからのクエリの埋め込みと、LLaVAにインスパイアされたLLMにエンコードされたパッチの埋め込みを直接プロジェクトする。このアプローチはモデルがクエリデコーディングプロセス中に見逃される可能性のある複雑な詳細をキャプチャするのを支援する。私たちのモデルであるBLIVAは、テキストリッチなVQAベンチマーク(OCR-VQAベンチマークでは最大17.76%)と一般的な(特にテキストリッチではない)VQAベンチマーク(Visual Space Reasoningベンチマークでは最大7.9%)を処理し、ベースラインであるInstructBLIPと比較して、パフォーマンスを大幅に向上することを示す。 BLIVAは、テキストの有無に関わらず、現実世界の画像をデコードする重要な能力を示す。 BLIVAによって実現された幅広い産業応用を実証するために、11の多様なカテゴリにまたがる質問応答セットと組み合わせたYouTubeサムネイルからなる新しいデータセットを用いて、モデルを評価した。さらなる調査に関心のある研究者にとって、コードとモデルはhttps://github.com/mlpc-ucsd/BLIVAで自由にアクセスできます。

関連論文リスト

ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文参考訳（メタデータ） (2025-03-01T03:29:02Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。 XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文参考訳（メタデータ） (2024-12-23T18:48:04Z)
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。 318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。 9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文参考訳（メタデータ） (2024-10-16T13:38:31Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文参考訳（メタデータ） (2024-06-17T05:54:06Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文参考訳（メタデータ） (2024-04-25T17:39:35Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-20T08:23:39Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。