論文の概要: DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding
- arxiv url: http://arxiv.org/abs/2408.15045v2
- Date: Wed, 28 Aug 2024 08:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 12:58:09.276568
- Title: DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding
- Title(参考訳): DocLayLLM: テキストリッチ文書理解のための大規模言語モデルの効率的かつ効果的なマルチモーダル拡張
- Authors: Wenhui Liao, Jiapeng Wang, Hongliang Li, Chengyu Wang, Jun Huang, Lianwen Jin,
- Abstract要約: テキストリッチドキュメント理解(テキストリッチドキュメント理解、TDU)とは、テキストコンテンツを含む文書を分析し、解釈することである。
TDU用に特別に設計された大規模言語モデル(LLM)の効率的かつ効果的なマルチモーダル拡張であるDocLayLLMを紹介する。
- 参考スコア(独自算出の注目度): 40.38251904765156
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-rich document understanding (TDU) refers to analyzing and comprehending documents containing substantial textual content. With the rapid evolution of large language models (LLMs), they have been widely leveraged for TDU due to their remarkable versatility and generalization. In this paper, we introduce DocLayLLM, an efficient and effective multi-modal extension of LLMs specifically designed for TDU. By integrating visual patch tokens and 2D positional tokens into LLMs and encoding the document content using the LLMs themselves, we fully take advantage of the document comprehension capability of LLMs and enhance their perception of OCR information. We have also deeply considered the role of the chain-of-thought (CoT) and innovatively proposed the techniques of CoT Pre-training and CoT Annealing. Our DocLayLLM can achieve remarkable performances with lightweight training settings, showcasing its efficiency and effectiveness. Experimental results demonstrate that our DocLayLLM surpasses existing OCR-dependent methods and also outperforms OCR-free competitors.
- Abstract(参考訳): テキストリッチドキュメント理解(テキストリッチドキュメント理解、TDU)とは、テキストコンテンツを含む文書を分析し、解釈することである。
大規模言語モデル (LLMs) の急速な進化により,TDU の大幅な汎用性と一般化のために広く活用されている。
本稿では,TDU用に特別に設計されたLLMの効率的かつ効果的なマルチモーダル拡張であるDocLayLLMを紹介する。
視覚的パッチトークンと2次元位置トークンをLCMに統合し、LCM自体を用いて文書内容を符号化することにより、LCMの文書理解能力を完全に活用し、OCR情報の認識を高める。
また,このチェーン・オブ・シント(CoT)の役割を深く検討し,CoT事前学習とCoTアニーリングの技法を革新的に提案した。
私たちのDocLayLLMは、軽量なトレーニング設定で優れたパフォーマンスを実現し、その効率性と有効性を示します。
実験の結果,DocLayLLMは既存のOCR依存手法を超越し,OCR非競合よりも優れていた。
関連論文リスト
- Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - LAPDoc: Layout-Aware Prompting for Documents [3.523208537466128]
そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。
その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-15T10:00:49Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - LMDX: Language Model-based Document Information Extraction and Localization [23.656970495804963]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
視覚的に豊かな文書から情報を抽出する彼らの応用は、まだ成功していない。
このタスクにLLMを採用する主な障害は、LLM内にレイアウトエンコーディングがないことである。
論文 参考訳(メタデータ) (2023-09-19T22:32:56Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。