論文の概要: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding
- arxiv url: http://arxiv.org/abs/2307.02499v1
- Date: Tue, 4 Jul 2023 11:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 16:41:36.526082
- Title: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding
- Title(参考訳): mPLUG-DocOwl:文書理解のためのモジュール化多モーダル大言語モデル
- Authors: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan,
Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei
Huang
- Abstract要約: 文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
- 参考スコア(独自算出の注目度): 55.4806974284156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding refers to automatically extract, analyze and
comprehend information from various types of digital documents, such as a web
page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl,
have demonstrated promising zero-shot capabilities in shallow OCR-free text
recognition, indicating their potential for OCR-free document understanding.
Nevertheless, without in-domain training, these models tend to ignore
fine-grained OCR features, such as sophisticated tables or large blocks of
text, which are essential for OCR-free document understanding. In this paper,
we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding.
Specifically, we first construct a instruction tuning dataset featuring a wide
range of visual-text understanding tasks. Then, we strengthen the OCR-free
document understanding ability by jointly train the model on language-only,
general vision-and-language, and document instruction tuning dataset with our
unified instruction tuning strategy. We also build an OCR-free document
instruction understanding evaluation set LLMDoc to better compare models'
capabilities on instruct compliance and document understanding. Experimental
results show that our model outperforms existing multi-modal models,
demonstrating its strong ability of document understanding. Besides, without
specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream
tasks. Our code, models, training data and evaluation set are available at
https://github.com/X-PLUG/mPLUG-DocOwl.
- Abstract(参考訳): 文書理解とは、ウェブページのような様々なタイプのデジタル文書から情報を自動的に抽出し、分析し、理解することである。
mPLUG-Owlを含む既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を示し、OCRフリー文書理解の可能性を示している。
それにもかかわらず、ドメイン内のトレーニングなしでは、これらのモデルは、OCRのない文書理解に不可欠な、洗練されたテーブルや大きなテキストブロックのような細粒度のOCR機能を無視する傾向にある。
本稿では,OCRフリー文書理解のためのmPLUG-DocOwlに基づくmPLUG-DocOwlを提案する。
具体的には、まず、幅広い視覚的テキスト理解タスクを特徴とするインストラクションチューニングデータセットを構築する。
次に,ocrフリーな文書理解能力を強化し,言語のみ,汎用視覚言語,文書命令チューニングデータセットを統一した命令チューニング戦略で共同で学習する。
また、OCRフリーな文書命令理解評価セットLLMDocを構築し、コンプライアンスと文書理解に関するモデルの能力をよりよく比較する。
実験結果から,本モデルは既存のマルチモーダルモデルよりも優れており,文書理解の強力な能力を示している。
さらに、特定の微調整なしに、mPLUG-DocOwlは様々な下流タスクをうまく一般化する。
私たちのコード、モデル、トレーニングデータ、評価セットはhttps://github.com/X-PLUG/mPLUG-DocOwl.comで公開されています。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding [40.38251904765156]
テキストリッチドキュメント理解(テキストリッチドキュメント理解、TDU)とは、テキストコンテンツを含む文書を分析し、解釈することである。
TDU用に特別に設計された大規模言語モデル(LLM)の効率的かつ効果的なマルチモーダル拡張であるDocLayLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-27T13:13:38Z) - VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding [18.609441902943445]
VisFocusは、視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより、OCRフリーな手法である。
視覚的エンコーダに入力された文書テキストのスニペットに言語マスキングを用いて,アーキテクチャ拡張と新たな事前学習タスクを組み合わせた。
我々の実験は、このプロンプト誘導型視覚符号化アプローチが性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-07-17T14:16:46Z) - Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model [25.459787361454353]
本稿では,対話論理のCoD-Chainを利用して,多言語モデル(LLM)を指導指導のための知識集約型多元対話を生成する新しいフレームワークR2Sを提案する。
オープンソースデータセットとドメイン固有のWebcrawledドキュメントの両方の生文書をベンチマークK-BENCHに統合することにより、Wikipedia(英語)、Science(中国語)、Artifacts(中国語)などのさまざまな領域をカバーする。
論文 参考訳(メタデータ) (2024-07-03T12:04:10Z) - LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。