論文の概要: LAPDoc: Layout-Aware Prompting for Documents
- arxiv url: http://arxiv.org/abs/2402.09841v1
- Date: Thu, 15 Feb 2024 10:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:19:56.848881
- Title: LAPDoc: Layout-Aware Prompting for Documents
- Title(参考訳): lapdoc: ドキュメントのレイアウトアウェアプロンプト
- Authors: Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk
Krechel, Darko Obradovic
- Abstract要約: そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。
その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.523208537466128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in training large language models (LLMs) using massive
amounts of solely textual data lead to strong generalization across many
domains and tasks, including document-specific tasks. Opposed to that there is
a trend to train multi-modal transformer architectures tailored for document
understanding that are designed specifically to fuse textual inputs with the
corresponding document layout. This involves a separate fine-tuning step for
which additional training data is required. At present, no document
transformers with comparable generalization to LLMs are available That raises
the question which type of model is to be preferred for document understanding
tasks. In this paper we investigate the possibility to use purely text-based
LLMs for document-specific tasks by using layout enrichment. We explore drop-in
modifications and rule-based methods to enrich purely textual LLM prompts with
layout information. In our experiments we investigate the effects on the
commercial ChatGPT model and the open-source LLM Solar. We demonstrate that
using our approach both LLMs show improved performance on various standard
document benchmarks. In addition, we study the impact of noisy OCR and layout
errors, as well as the limitations of LLMs when it comes to utilizing document
layout. Our results indicate that layout enrichment can improve the performance
of purely text-based LLMs for document understanding by up to 15% compared to
just using plain document text. In conclusion, this approach should be
considered for the best model choice between text-based LLM or multi-modal
document transformers.
- Abstract(参考訳): 大規模言語モデル(LLM)を大量のテキストデータで訓練する最近の進歩は、文書固有のタスクを含む多くの領域やタスクに強い一般化をもたらす。
文書のレイアウトとテキスト入力を融合させるように設計された文書理解に適したマルチモーダルトランスフォーマーアーキテクチャを訓練する傾向が指摘されている。
これは、追加のトレーニングデータを必要とする個別の微調整ステップを含む。
現在、llmに匹敵する一般化を持つ文書トランスフォーマーは存在せず、文書理解タスクにおいてどのモデルが望ましいかという疑問を投げかけている。
本稿では,レイアウトエンリッチメントを用いて文書特定タスクに純粋にテキストベースのllmを使用する可能性について検討する。
そこで本研究では,LLMプロンプトをレイアウト情報で拡張するためのドロップイン修正とルールベースの手法について検討する。
実験では,商用のChatGPTモデルとオープンソースLLM Solarへの影響について検討した。
提案手法を用いることで,各種標準文書ベンチマークの性能が向上することが実証された。
さらに,ノイズの多いOCRとレイアウトエラーの影響と,文書レイアウトを利用する場合のLLMの限界についても検討した。
以上の結果から,レイアウトエンリッチメントは文書理解のための純粋テキストベースのllmの性能を,平文テキストのみと比較して最大15%向上できることが示唆された。
結論として、本手法はテキストベースのLLMとマルチモーダル文書変換器の最良のモデル選択として検討されるべきである。
関連論文リスト
- LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding [103.69014172427026]
大規模マルチモーダルモデル(LMM)は、最近、テキストに富む画像理解において大きな進歩を見せている。
長文書理解を支援するLMMの能力を拡張したLoRA-Contextualizing Adaptation of Large Multimodal Model (LoCAL) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T02:09:01Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding [40.38251904765156]
テキストリッチドキュメント理解(テキストリッチドキュメント理解、TDU)とは、テキストコンテンツを含む文書を分析し、解釈することである。
TDU用に特別に設計された大規模言語モデル(LLM)の効率的かつ効果的なマルチモーダル拡張であるDocLayLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-27T13:13:38Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding [21.916774808384893]
提案手法は,レイアウト対応事前学習とレイアウト対応監視ファインタニングの2つのコンポーネントから構成される。
標準ベンチマークの実験では、提案されたLayoutLLMは、文書理解のためにオープンソースの7B LLMs/MLLMを採用する既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-08T06:40:28Z) - Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models [28.105271954633682]
本稿では,Large Language Models (LLMs) へのリーク情報の再ランク付けのための,Q-PEFT (Q-PEFT) アプローチを提案する。
クエリを使用して、入力ドキュメントから上位$kのトークンを抽出し、コンテキストのヒントとして機能します。
検索機構をマルチヘッドアテンション層に置き換えて、エンドツーエンドのトレーニングを実現し、文書中のすべてのトークンをカバーすることにより、Q-PEFTをさらに強化する。
論文 参考訳(メタデータ) (2024-04-06T06:44:41Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。