論文の概要: LMDX: Language Model-based Document Information Extraction and
Localization
- arxiv url: http://arxiv.org/abs/2309.10952v1
- Date: Tue, 19 Sep 2023 22:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 13:27:51.133098
- Title: LMDX: Language Model-based Document Information Extraction and
Localization
- Title(参考訳): LMDX:言語モデルに基づく文書情報抽出とローカライゼーション
- Authors: Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun,
Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
- 参考スコア(独自算出の注目度): 15.686075399512534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) have revolutionized Natural Language Processing
(NLP), improving state-of-the-art on many existing tasks and exhibiting
emergent capabilities. However, LLMs have not yet been successfully applied on
semi-structured document information extraction, which is at the core of many
document processing workflows and consists of extracting key entities from a
visually rich document (VRD) given a predefined target schema. The main
obstacles to LLM adoption in that task have been the absence of layout encoding
within LLMs, critical for a high quality extraction, and the lack of a
grounding mechanism ensuring the answer is not hallucinated. In this paper, we
introduce Language Model-based Document Information Extraction and Localization
(LMDX), a methodology to adapt arbitrary LLMs for document information
extraction. LMDX can do extraction of singular, repeated, and hierarchical
entities, both with and without training data, while providing grounding
guarantees and localizing the entities within the document. In particular, we
apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks,
setting a new state-of-the-art and showing how LMDX enables the creation of
high quality, data-efficient parsers.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらし、多くの既存のタスクの最先端を改善し、創発的な能力を示した。
しかし、LLMは、多くのドキュメント処理ワークフローの中核であり、予め定義されたターゲットスキーマが与えられた視覚的にリッチなドキュメント(VRD)からキーエンティティを抽出する半構造化文書情報抽出にはまだ成功していない。
このタスクでllmを採用する主な障害は、llm内のレイアウトエンコーディングが欠如し、高品質な抽出に不可欠であることと、答えが幻覚的でないことを保証する接地機構が欠如していることである。
本稿では,任意のllmを文書情報抽出に適用する手法であるlmdx(language model-based document information extraction and localization)を提案する。
LMDXは、トレーニングデータと非トレーニングデータの両方で特異、繰り返し、階層的なエンティティの抽出が可能であり、ドキュメント内のエンティティの保証とローカライズを提供する。
特に, LMDX を PaLM 2-S LLM に適用し,VRDU と CORD のベンチマークで評価し, 新たな最先端技術の設定と, LMDX が高品質でデータ効率のよいパーサの作成を可能にしていることを示す。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 [0.0]
本稿では,LLM ChatGPTから文書理解知識をFLAN-T5に抽出する手法を提案する。
本研究は, 実世界のシナリオにおける高度言語モデルの展開を促進する蒸留技術の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-09-17T15:37:56Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Language Models Enable Simple Systems for Generating Structured Views of
Heterogeneous Data Lakes [15.214583657626697]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - In-Context Retrieval-Augmented Language Models [28.23702459322163]
In-Context RALMは市販の汎用検索機を利用して、モデルサイズや多様なコーパスに対して驚くほど大きなLMゲインを提供する。
In-Context RALM は LM の接地頻度を増大させる可能性があると結論付けている。
論文 参考訳(メタデータ) (2023-01-31T20:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。