論文の概要: UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2310.05126v1
- Date: Sun, 8 Oct 2023 11:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:26:27.358203
- Title: UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model
- Title(参考訳): UReader: マルチモーダル大言語モデルを用いた汎用OCRフリービジュアル言語理解
- Authors: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Guohai Xu,
Chenliang Li, Junfeng Tian, Qi Qian, Ji Zhang, Qin Jin, Liang He, Xin Alex
Lin, Fei Huang
- Abstract要約: MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
- 参考スコア(独自算出の注目度): 108.85584502396182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text is ubiquitous in our visual world, conveying crucial information, such
as in documents, websites, and everyday photographs. In this work, we propose
UReader, a first exploration of universal OCR-free visually-situated language
understanding based on the Multimodal Large Language Model (MLLM). By
leveraging the shallow text recognition ability of the MLLM, we only finetuned
1.2% parameters and the training cost is much lower than previous work
following domain-specific pretraining and finetuning paradigms. Concretely,
UReader is jointly finetuned on a wide range of Visually-situated Language
Understanding tasks via a unified instruction format. To enhance the visual
text and semantic understanding, we further apply two auxiliary tasks with the
same format, namely text reading and key points generation tasks. We design a
shape-adaptive cropping module before the encoder-decoder architecture of MLLM
to leverage the frozen low-resolution vision encoder for processing
high-resolution images. Without downstream finetuning, our single model
achieves state-of-the-art ocr-free performance in 8 out of 10 visually-situated
language understanding tasks, across 5 domains: documents, tables, charts,
natural images, and webpage screenshots. Codes and instruction-tuning datasets
will be released.
- Abstract(参考訳): テキストは私たちの視覚世界においてユビキタスであり、文書、ウェブサイト、日々の写真など重要な情報を伝える。
本稿では,MLLM(Multimodal Large Language Model)に基づく,OCRを含まない視覚的言語理解の汎用的研究であるUReaderを提案する。
mllmの浅いテキスト認識能力を利用することで、1.2%のパラメータを微調整し、トレーニングコストはドメイン固有の事前学習と微調整パラダイムに従う以前の作業よりもはるかに低い。
具体的には、UReaderは、統一的な命令フォーマットを通じて、広範囲のVisually-situated Language Understandingタスクで共同で微調整される。
視覚的テキストと意味理解を強化するために,テキスト読解とキーポイント生成タスクという2つの補助タスクを同じフォーマットで適用する。
MLLMのエンコーダ・デコーダアーキテクチャの前に形状適応型トリミングモジュールを設計し,凍結した低解像度ビジョンエンコーダを用いて高解像度画像の処理を行う。
ダウンストリームの微調整がなければ、単一のモデルはドキュメント、テーブル、チャート、自然画像、ウェブページのスクリーンショットの5つのドメインにわたって、10の視覚的な言語理解タスクのうち8つで最先端のocrフリーパフォーマンスを実現します。
コードと命令チューニングデータセットがリリースされる。
関連論文リスト
- VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer [22.06023928642522]
本稿では,VL-Readerという,革新的なシーンテキスト認識手法を提案する。
VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。
トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。
論文 参考訳(メタデータ) (2024-09-18T02:46:28Z) - LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval [10.603148564713518]
汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。
画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。
第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
論文 参考訳(メタデータ) (2024-06-06T17:37:47Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。