論文の概要: Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding
- arxiv url: http://arxiv.org/abs/2503.14140v1
- Date: Tue, 18 Mar 2025 11:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:50.536249
- Title: Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding
- Title(参考訳): Marten: マルチモーダル文書理解のためのマスク生成による視覚的質問応答
- Authors: Zining Wang, Tongkun Guan, Pei Fu, Chen Duan, Qianyi Jiang, Zhentao Guo, Shan Guo, Junfeng Luo, Wei Shen, Xiaokang Yang,
- Abstract要約: MLLM(Multi-modal Large Language Models)は、視覚的理解能力を備えた大規模言語モデルを提供する。
文書レベルのMLLMにおける視覚的・言語的モダリティをブリッジするに適した画像テキスト事前学習タスクを設計するには,まだ未検討である。
本稿では,マスク生成による視覚質問応答(VQAMask)タスクとして重要な課題を提示する新しい視覚言語アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 42.15416804253783
- License:
- Abstract: Multi-modal Large Language Models (MLLMs) have introduced a novel dimension to document understanding, i.e., they endow large language models with visual comprehension capabilities; however, how to design a suitable image-text pre-training task for bridging the visual and language modality in document-level MLLMs remains underexplored. In this study, we introduce a novel visual-language alignment method that casts the key issue as a Visual Question Answering with Mask generation (VQAMask) task, optimizing two tasks simultaneously: VQA-based text parsing and mask generation. The former allows the model to implicitly align images and text at the semantic level. The latter introduces an additional mask generator (discarded during inference) to explicitly ensure alignment between visual texts within images and their corresponding image regions at a spatially-aware level. Together, they can prevent model hallucinations when parsing visual text and effectively promote spatially-aware feature representation learning. To support the proposed VQAMask task, we construct a comprehensive image-mask generation pipeline and provide a large-scale dataset with 6M data (MTMask6M). Subsequently, we demonstrate that introducing the proposed mask generation task yields competitive document-level understanding performance. Leveraging the proposed VQAMask, we introduce Marten, a training-efficient MLLM tailored for document-level understanding. Extensive experiments show that our Marten consistently achieves significant improvements among 8B-MLLMs in document-centric tasks. Code and datasets are available at https://github.com/PriNing/Marten.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、視覚的理解能力を備えた大規模言語モデルを実現するための新しい次元を導入したが、文書レベルのMLLMにおいて、視覚的および言語的モダリティをブリッジするための適切な画像テキスト事前学習タスクを設計する方法は、未検討のままである。
本研究では,VQAベースのテキスト解析とマスク生成という2つのタスクを同時に最適化する,マスク生成による視覚質問応答(VQAMask)タスクとして重要な課題を提示する,新しい視覚言語アライメント手法を提案する。
前者は、モデルが意味レベルで画像とテキストを暗黙的にアライメントすることを可能にする。
後者は、画像内の視覚テキストとその対応する画像領域を空間認識レベルで明示的にアライメントするように、追加のマスクジェネレータ(推論中に破棄)を導入する。
視覚テキストを解析する際のモデル幻覚を防止し、空間認識型特徴表現学習を効果的に促進することができる。
提案したVQAMaskタスクをサポートするために,総合的な画像マスク生成パイプラインを構築し,6Mデータを用いた大規模データセット(MTMask6M)を提供する。
次に,提案したマスク生成タスクを導入することで,文書レベルの理解性能が向上することを示す。
提案したVQAMaskを活用し,文書レベルの理解に適した訓練効率の高いMLLMであるMartenを紹介する。
文書中心のタスクにおいて,マルチンは8B-MLLMの大幅な改善を継続的に達成している。
コードとデータセットはhttps://github.com/PriNing/Marten.comで入手できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。
これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。
XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-12-23T18:48:04Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。