論文の概要: UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2310.05126v1
- Date: Sun, 8 Oct 2023 11:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:26:27.358203
- Title: UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model
- Title(参考訳): UReader: マルチモーダル大言語モデルを用いた汎用OCRフリービジュアル言語理解
- Authors: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Guohai Xu,
Chenliang Li, Junfeng Tian, Qi Qian, Ji Zhang, Qin Jin, Liang He, Xin Alex
Lin, Fei Huang
- Abstract要約: MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
- 参考スコア(独自算出の注目度): 108.85584502396182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text is ubiquitous in our visual world, conveying crucial information, such
as in documents, websites, and everyday photographs. In this work, we propose
UReader, a first exploration of universal OCR-free visually-situated language
understanding based on the Multimodal Large Language Model (MLLM). By
leveraging the shallow text recognition ability of the MLLM, we only finetuned
1.2% parameters and the training cost is much lower than previous work
following domain-specific pretraining and finetuning paradigms. Concretely,
UReader is jointly finetuned on a wide range of Visually-situated Language
Understanding tasks via a unified instruction format. To enhance the visual
text and semantic understanding, we further apply two auxiliary tasks with the
same format, namely text reading and key points generation tasks. We design a
shape-adaptive cropping module before the encoder-decoder architecture of MLLM
to leverage the frozen low-resolution vision encoder for processing
high-resolution images. Without downstream finetuning, our single model
achieves state-of-the-art ocr-free performance in 8 out of 10 visually-situated
language understanding tasks, across 5 domains: documents, tables, charts,
natural images, and webpage screenshots. Codes and instruction-tuning datasets
will be released.
- Abstract(参考訳): テキストは私たちの視覚世界においてユビキタスであり、文書、ウェブサイト、日々の写真など重要な情報を伝える。
本稿では,MLLM(Multimodal Large Language Model)に基づく,OCRを含まない視覚的言語理解の汎用的研究であるUReaderを提案する。
mllmの浅いテキスト認識能力を利用することで、1.2%のパラメータを微調整し、トレーニングコストはドメイン固有の事前学習と微調整パラダイムに従う以前の作業よりもはるかに低い。
具体的には、UReaderは、統一的な命令フォーマットを通じて、広範囲のVisually-situated Language Understandingタスクで共同で微調整される。
視覚的テキストと意味理解を強化するために,テキスト読解とキーポイント生成タスクという2つの補助タスクを同じフォーマットで適用する。
MLLMのエンコーダ・デコーダアーキテクチャの前に形状適応型トリミングモジュールを設計し,凍結した低解像度ビジョンエンコーダを用いて高解像度画像の処理を行う。
ダウンストリームの微調整がなければ、単一のモデルはドキュメント、テーブル、チャート、自然画像、ウェブページのスクリーンショットの5つのドメインにわたって、10の視覚的な言語理解タスクのうち8つで最先端のocrフリーパフォーマンスを実現します。
コードと命令チューニングデータセットがリリースされる。
関連論文リスト
- Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Efficient End-to-End Visual Document Understanding with Rationale
Distillation [45.45316789343615]
我々は、学習データに基づいて、入力質問に対する理性と答えの両方を予測するために、小さな学生モデルを訓練する。
Pix2Struct(282Mパラメータ)に基づく学生モデルは、3つのビジュアル文書理解ベンチマークで一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-11-16T06:50:26Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Towards Models that Can See and Read [12.078407046266982]
Visual Question Answering (VQA) と Image Captioning (CAP) は、画像中のテキストからの推論を必要とする類似のシーンテキストバージョンである。
We propose UniTNT, an Unified Text-Non-Text approach, which allows existing multimodal scene-text understanding capabilities。
シーンテキスト理解機能により、一般的なVQAおよびCAPにおける視覚言語モデルの性能が最大2.69%向上し、0.6CIDEr向上することを示す。
論文 参考訳(メタデータ) (2023-01-18T09:36:41Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。