論文の概要: Spatial ModernBERT: Spatial-Aware Transformer for Table and Key-Value Extraction in Financial Documents at Scale
- arxiv url: http://arxiv.org/abs/2507.08865v1
- Date: Wed, 09 Jul 2025 14:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.652042
- Title: Spatial ModernBERT: Spatial-Aware Transformer for Table and Key-Value Extraction in Financial Documents at Scale
- Title(参考訳): 空間的現代文字:大規模財務文書におけるテーブルとキー値抽出のための空間認識変換器
- Authors: Javis AI Team, Amrendra Singh, Maulik Shah, Dharshan Sampath,
- Abstract要約: 空間埋め込みを付加したトランスモデルであるSpatial ModernBERTを導入する。
監査、データ分析、自動請求処理といった業務には、財務文書からテーブルとキー-バリューペアを抽出することが不可欠である。
- 参考スコア(独自算出の注目度): 0.5062312533373298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting tables and key-value pairs from financial documents is essential for business workflows such as auditing, data analytics, and automated invoice processing. In this work, we introduce Spatial ModernBERT-a transformer-based model augmented with spatial embeddings-to accurately detect and extract tabular data and key-value fields from complex financial documents. We cast the extraction task as token classification across three heads: (1) Label Head, classifying each token as a label (e.g., PO Number, PO Date, Item Description, Quantity, Base Cost, MRP, etc.); (2) Column Head, predicting column indices; (3) Row Head, distinguishing the start of item rows and header rows. The model is pretrained on the PubTables-1M dataset, then fine-tuned on a financial document dataset, achieving robust performance through cross-entropy loss on each classification head. We propose a post-processing method to merge tokens using B-I-IB tagging, reconstruct the tabular layout, and extract key-value pairs. Empirical evaluation shows that Spatial ModernBERT effectively leverages both textual and spatial cues, facilitating highly accurate table and key-value extraction in real-world financial documents.
- Abstract(参考訳): 監査、データ分析、自動請求処理といったビジネスワークフローには、財務文書からテーブルとキー-バリューペアを抽出することが不可欠である。
本研究では,複雑な財務文書から表層データやキー値フィールドを正確に検出・抽出するために,空間埋め込みを付加したSpatial ModernBERTモデルを提案する。
抽出タスクは,(1)ラベルヘッド,各トークンをラベル(例えば,PO番号,PO日付,アイテム記述,量,ベースコスト,MPPなど)として分類し,(2)カラムヘッド,カラムヘッド,カラムインデックス,(3)ローヘッド,項目行とヘッダ行の開始を区別する。
このモデルはPubTables-1Mデータセットで事前トレーニングされ、財務文書データセットで微調整され、各分類ヘッドのクロスエントロピー損失によって堅牢なパフォーマンスを達成する。
本稿では,B-I-IBタグによるトークンのマージと表レイアウトの再構築,キーと値のペアの抽出を行うポストプロセッシング手法を提案する。
経験的評価から,Spatial ModernBERTはテキストと空間的手がかりの両方を効果的に活用し,リアルタイムの財務文書における高精度なテーブルとキー値抽出を容易にすることが示唆された。
関連論文リスト
- Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - TabSniper: Towards Accurate Table Detection & Structure Recognition for Bank Statements [1.9461727843485295]
既存のテーブル構造認識アプローチは、長い複雑なテーブルに対するサブ最適結果を生成する。
本稿では,バンクステートメントからの効率的なテーブル検出,分類,構造認識のための新しいアプローチであるTabSniperを提案する。
論文 参考訳(メタデータ) (2024-12-17T11:47:59Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - Evaluation of Table Representations to Answer Questions from Tables in Documents : A Case Study using 3GPP Specifications [0.650923326742559]
関連するチャンクの点におけるテーブルの表現は明確ではない。
各セルに対応するテーブルヘッダ情報を含むローレベル表現は、検索性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T04:40:35Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification [14.386767741945256]
AMuRDは、レシートから情報を取り出すために特別に設計された、新しい多言語人間アノテーション付きデータセットである。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
論文 参考訳(メタデータ) (2023-09-18T14:18:19Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - Deep Structured Feature Networks for Table Detection and Tabular Data
Extraction from Scanned Financial Document Images [0.6299766708197884]
本研究では、財務PDF文書から自動テーブル検出と表データ抽出を提案する。
我々は,より高速なR-CNN(Region-based Convolutional Neural Network)モデルを用いて,テーブル領域を検出する3つの主要なプロセスからなる手法を提案する。
提案したデータセットから,検出モデルの卓越したテーブル検出性能を得た。
論文 参考訳(メタデータ) (2021-02-20T08:21:17Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。