論文の概要: Information Extraction from Visually Rich Documents using LLM-based Organization of Documents into Independent Textual Segments
- arxiv url: http://arxiv.org/abs/2505.13535v1
- Date: Sun, 18 May 2025 15:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.378149
- Title: Information Extraction from Visually Rich Documents using LLM-based Organization of Documents into Independent Textual Segments
- Title(参考訳): LLMに基づく文書の独立したテキストセグメントへの編成による視覚的リッチな文書からの情報抽出
- Authors: Aniket Bhattacharyya, Anurag Tripathi, Ujjal Das, Archan Karmakar, Amit Pathak, Maneesh Gupta,
- Abstract要約: 特殊な非LLM NLPベースのソリューションは、典型的にはテキスト情報と幾何学情報の両方を用いたトレーニングモデルを含む。
BLOCKIEは,VRDを局所的で再利用可能なセマンティックテキストセグメントに整理する,新しいLCMベースのアプローチである。
当社のアプローチは、F1スコアの1-3%で、公開VRDベンチマークの最先端よりも優れています。
- 参考スコア(独自算出の注目度): 0.25289250870065627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction (IE) from Visually Rich Documents (VRDs) containing layout features along with text is a critical and well-studied task. Specialized non-LLM NLP-based solutions typically involve training models using both textual and geometric information to label sequences/tokens as named entities or answers to specific questions. However, these approaches lack reasoning, are not able to infer values not explicitly present in documents, and do not generalize well to new formats. Generative LLM-based approaches proposed recently are capable of reasoning, but struggle to comprehend clues from document layout especially in previously unseen document formats, and do not show competitive performance in heterogeneous VRD benchmark datasets. In this paper, we propose BLOCKIE, a novel LLM-based approach that organizes VRDs into localized, reusable semantic textual segments called $\textit{semantic blocks}$, which are processed independently. Through focused and more generalizable reasoning,our approach outperforms the state-of-the-art on public VRD benchmarks by 1-3% in F1 scores, is resilient to document formats previously not encountered and shows abilities to correctly extract information not explicitly present in documents.
- Abstract(参考訳): レイアウト機能とテキストを含むVisually Rich Documents (VRD)からの情報抽出(IE)は、重要かつよく研究されたタスクである。
特殊な非LLM NLPベースのソリューションは、典型的には、テキスト情報と幾何学情報の両方を使用して、名前付きエンティティや特定の質問に対する回答としてシーケンス/トークンをラベル付けするトレーニングモデルを含む。
しかし、これらのアプローチには推論が欠如しており、文書に明示的に存在しない値を推測することができず、新しいフォーマットにうまく一般化できない。
最近提案されたジェネレーティブLSMベースのアプローチは推論が可能であるが、文書レイアウト、特にそれまで目に見えない文書フォーマットのヒントを理解するのに苦労しており、異種VRDベンチマークデータセットでは競合する性能を示していない。
本稿では,VRDを局所化された再利用可能なセマンティックテキストセグメントに整理し,個別に処理する新しいLCMベースのアプローチであるBLOCKIEを提案する。
集中的でより一般化可能な推論を通じて、我々のアプローチは、F1スコアの1-3%の公開VRDベンチマークの最先端を上回り、これまで遭遇していなかった文書フォーマットに耐性を持ち、文書に明示的に存在しない情報を正しく抽出する能力を示す。
関連論文リスト
- Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。
提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-14T19:19:26Z) - VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。