論文の概要: LAPDoc: Layout-Aware Prompting for Documents
- arxiv url: http://arxiv.org/abs/2402.09841v1
- Date: Thu, 15 Feb 2024 10:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:19:56.848881
- Title: LAPDoc: Layout-Aware Prompting for Documents
- Title(参考訳): lapdoc: ドキュメントのレイアウトアウェアプロンプト
- Authors: Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk
Krechel, Darko Obradovic
- Abstract要約: そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。
その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.523208537466128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in training large language models (LLMs) using massive
amounts of solely textual data lead to strong generalization across many
domains and tasks, including document-specific tasks. Opposed to that there is
a trend to train multi-modal transformer architectures tailored for document
understanding that are designed specifically to fuse textual inputs with the
corresponding document layout. This involves a separate fine-tuning step for
which additional training data is required. At present, no document
transformers with comparable generalization to LLMs are available That raises
the question which type of model is to be preferred for document understanding
tasks. In this paper we investigate the possibility to use purely text-based
LLMs for document-specific tasks by using layout enrichment. We explore drop-in
modifications and rule-based methods to enrich purely textual LLM prompts with
layout information. In our experiments we investigate the effects on the
commercial ChatGPT model and the open-source LLM Solar. We demonstrate that
using our approach both LLMs show improved performance on various standard
document benchmarks. In addition, we study the impact of noisy OCR and layout
errors, as well as the limitations of LLMs when it comes to utilizing document
layout. Our results indicate that layout enrichment can improve the performance
of purely text-based LLMs for document understanding by up to 15% compared to
just using plain document text. In conclusion, this approach should be
considered for the best model choice between text-based LLM or multi-modal
document transformers.
- Abstract(参考訳): 大規模言語モデル(LLM)を大量のテキストデータで訓練する最近の進歩は、文書固有のタスクを含む多くの領域やタスクに強い一般化をもたらす。
文書のレイアウトとテキスト入力を融合させるように設計された文書理解に適したマルチモーダルトランスフォーマーアーキテクチャを訓練する傾向が指摘されている。
これは、追加のトレーニングデータを必要とする個別の微調整ステップを含む。
現在、llmに匹敵する一般化を持つ文書トランスフォーマーは存在せず、文書理解タスクにおいてどのモデルが望ましいかという疑問を投げかけている。
本稿では,レイアウトエンリッチメントを用いて文書特定タスクに純粋にテキストベースのllmを使用する可能性について検討する。
そこで本研究では,LLMプロンプトをレイアウト情報で拡張するためのドロップイン修正とルールベースの手法について検討する。
実験では,商用のChatGPTモデルとオープンソースLLM Solarへの影響について検討した。
提案手法を用いることで,各種標準文書ベンチマークの性能が向上することが実証された。
さらに,ノイズの多いOCRとレイアウトエラーの影響と,文書レイアウトを利用する場合のLLMの限界についても検討した。
以上の結果から,レイアウトエンリッチメントは文書理解のための純粋テキストベースのllmの性能を,平文テキストのみと比較して最大15%向上できることが示唆された。
結論として、本手法はテキストベースのLLMとマルチモーダル文書変換器の最良のモデル選択として検討されるべきである。
関連論文リスト
- LLM Based Multi-Agent Generation of Semi-structured Documents from
Semantic Templates in the Public Administration Domain [2.3999111269325266]
大きな言語モデル(LLM)により、ユーザ要求を満たすカスタマイズされたテキスト出力が作成できるようになった。
所望の構造に適合した新しい文書を生成するために,LLMと迅速なエンジニアリングシステム,マルチエージェントシステムを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T13:54:53Z) - Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - SwitchGPT: Adapting Large Language Models for Non-Text Outputs [28.656227306028743]
大規模言語モデル(LLM)は主にテキストベースのデータセットに基づいて訓練されている。
LLMは、テキスト出力による複雑な言語命令の理解と実行において、非常に優れた能力を示す。
テキストベースのLLMをマルチモーダルに進化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T11:38:23Z) - Towards Codable Watermarking for Injecting Multi-bit Information to LLM [90.13097900576113]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
LLMの悪用を防ぐために、テキストのソースを特定する必要性が高まっている。
テキスト透かし技術は、LLMによってテキストが生成されるかどうかを識別する上で信頼性があることが証明されている。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Language Models Enable Simple Systems for Generating Structured Views of
Heterogeneous Data Lakes [15.214583657626697]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。