論文の概要: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding
- arxiv url: http://arxiv.org/abs/2307.02499v1
- Date: Tue, 4 Jul 2023 11:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 16:41:36.526082
- Title: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding
- Title(参考訳): mPLUG-DocOwl:文書理解のためのモジュール化多モーダル大言語モデル
- Authors: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan,
Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei
Huang
- Abstract要約: 文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
- 参考スコア(独自算出の注目度): 55.4806974284156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding refers to automatically extract, analyze and
comprehend information from various types of digital documents, such as a web
page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl,
have demonstrated promising zero-shot capabilities in shallow OCR-free text
recognition, indicating their potential for OCR-free document understanding.
Nevertheless, without in-domain training, these models tend to ignore
fine-grained OCR features, such as sophisticated tables or large blocks of
text, which are essential for OCR-free document understanding. In this paper,
we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding.
Specifically, we first construct a instruction tuning dataset featuring a wide
range of visual-text understanding tasks. Then, we strengthen the OCR-free
document understanding ability by jointly train the model on language-only,
general vision-and-language, and document instruction tuning dataset with our
unified instruction tuning strategy. We also build an OCR-free document
instruction understanding evaluation set LLMDoc to better compare models'
capabilities on instruct compliance and document understanding. Experimental
results show that our model outperforms existing multi-modal models,
demonstrating its strong ability of document understanding. Besides, without
specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream
tasks. Our code, models, training data and evaluation set are available at
https://github.com/X-PLUG/mPLUG-DocOwl.
- Abstract(参考訳): 文書理解とは、ウェブページのような様々なタイプのデジタル文書から情報を自動的に抽出し、分析し、理解することである。
mPLUG-Owlを含む既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を示し、OCRフリー文書理解の可能性を示している。
それにもかかわらず、ドメイン内のトレーニングなしでは、これらのモデルは、OCRのない文書理解に不可欠な、洗練されたテーブルや大きなテキストブロックのような細粒度のOCR機能を無視する傾向にある。
本稿では,OCRフリー文書理解のためのmPLUG-DocOwlに基づくmPLUG-DocOwlを提案する。
具体的には、まず、幅広い視覚的テキスト理解タスクを特徴とするインストラクションチューニングデータセットを構築する。
次に,ocrフリーな文書理解能力を強化し,言語のみ,汎用視覚言語,文書命令チューニングデータセットを統一した命令チューニング戦略で共同で学習する。
また、OCRフリーな文書命令理解評価セットLLMDocを構築し、コンプライアンスと文書理解に関するモデルの能力をよりよく比較する。
実験結果から,本モデルは既存のマルチモーダルモデルよりも優れており,文書理解の強力な能力を示している。
さらに、特定の微調整なしに、mPLUG-DocOwlは様々な下流タスクをうまく一般化する。
私たちのコード、モデル、トレーニングデータ、評価セットはhttps://github.com/X-PLUG/mPLUG-DocOwl.comで公開されています。
関連論文リスト
- mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the
Frequency Domain for Versatile Document Understanding [98.41782470335032]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Efficient End-to-End Visual Document Understanding with Rationale
Distillation [45.45316789343615]
我々は、学習データに基づいて、入力質問に対する理性と答えの両方を予測するために、小さな学生モデルを訓練する。
Pix2Struct(282Mパラメータ)に基づく学生モデルは、3つのビジュアル文書理解ベンチマークで一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-11-16T06:50:26Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。