Fugu-MT 論文翻訳(概要): LMDX: Language Model-based Document Information Extraction and Localization

論文の概要: LMDX: Language Model-based Document Information Extraction and Localization

arxiv url: http://arxiv.org/abs/2309.10952v1
Date: Tue, 19 Sep 2023 22:32:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 13:27:51.133098
Title: LMDX: Language Model-based Document Information Extraction and Localization
Title（参考訳）: LMDX:言語モデルに基づく文書情報抽出とローカライゼーション
Authors: Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Jiaqi Mu, Hao Zhang, Nan Hua
Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
参考スコア（独自算出の注目度）: 15.686075399512534
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art on many existing tasks and exhibiting emergent capabilities. However, LLMs have not yet been successfully applied on semi-structured document information extraction, which is at the core of many document processing workflows and consists of extracting key entities from a visually rich document (VRD) given a predefined target schema. The main obstacles to LLM adoption in that task have been the absence of layout encoding within LLMs, critical for a high quality extraction, and the lack of a grounding mechanism ensuring the answer is not hallucinated. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to adapt arbitrary LLMs for document information extraction. LMDX can do extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. In particular, we apply LMDX to the PaLM 2-S LLM and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらし、多くの既存のタスクの最先端を改善し、創発的な能力を示した。しかし、LLMは、多くのドキュメント処理ワークフローの中核であり、予め定義されたターゲットスキーマが与えられた視覚的にリッチなドキュメント(VRD)からキーエンティティを抽出する半構造化文書情報抽出にはまだ成功していない。このタスクでllmを採用する主な障害は、llm内のレイアウトエンコーディングが欠如し、高品質な抽出に不可欠であることと、答えが幻覚的でないことを保証する接地機構が欠如していることである。本稿では,任意のllmを文書情報抽出に適用する手法であるlmdx(language model-based document information extraction and localization)を提案する。 LMDXは、トレーニングデータと非トレーニングデータの両方で特異、繰り返し、階層的なエンティティの抽出が可能であり、ドキュメント内のエンティティの保証とローカライズを提供する。特に, LMDX を PaLM 2-S LLM に適用し,VRDU と CORD のベンチマークで評価し, 新たな最先端技術の設定と, LMDX が高品質でデータ効率のよいパーサの作成を可能にしていることを示す。

関連論文リスト

Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.286323454512996]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。 HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文参考訳（メタデータ） (2024-12-28T07:54:14Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文参考訳（メタデータ） (2024-10-04T00:53:32Z)
Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 [0.0]
本稿では,LLM ChatGPTから文書理解知識をFLAN-T5に抽出する手法を提案する。本研究は, 実世界のシナリオにおける高度言語モデルの展開を促進する蒸留技術の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-09-17T15:37:56Z)
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding [40.38251904765156]
テキストリッチ文書理解(TDU)では,テキストの内容や複雑なレイアウトを含む文書を包括的に分析する必要がある。本稿では,TDUに特化して設計されたマルチモーダル言語モデル(MLLM)の効率的なマルチモーダル拡張であるDocLayLLMを紹介する。
論文参考訳（メタデータ） (2024-08-27T13:13:38Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。 4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-04-14T09:48:37Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [15.214583657626697]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)
In-Context Retrieval-Augmented Language Models [28.23702459322163]
In-Context RALMは市販の汎用検索機を利用して、モデルサイズや多様なコーパスに対して驚くほど大きなLMゲインを提供する。 In-Context RALM は LM の接地頻度を増大させる可能性があると結論付けている。
論文参考訳（メタデータ） (2023-01-31T20:26:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。