論文の概要: SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
- arxiv url: http://arxiv.org/abs/2412.04262v1
- Date: Thu, 05 Dec 2024 15:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:39:58.039353
- Title: SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
- Title(参考訳): SynFinTabs: 情報とテーブル抽出のための合成ファイナンシャルテーブルのデータセット
- Authors: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux,
- Abstract要約: 既存のデータセットは、大量の学術論文のために科学的な表にフォーカスすることが多い。
現在のデータセットは、しばしば表に含まれる単語とその位置を欠いている。
SynFinTabsは、大規模にラベル付けされた合成財務表のデータセットである。
- 参考スコア(独自算出の注目度): 1.0624606551524207
- License:
- Abstract: Table extraction from document images is a challenging AI problem, and labelled data for many content domains is difficult to come by. Existing table extraction datasets often focus on scientific tables due to the vast amount of academic articles that are readily available, along with their source code. However, there are significant layout and typographical differences between tables found across scientific, financial, and other domains. Current datasets often lack the words, and their positions, contained within the tables, instead relying on unreliable OCR to extract these features for training modern machine learning models on natural language processing tasks. Therefore, there is a need for a more general method of obtaining labelled data. We present SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our hope is that our method of generating these synthetic tables is transferable to other domains. To demonstrate the effectiveness of our dataset in training models to extract information from table images, we create FinTabQA, a layout large language model trained on an extractive question-answering task. We test our model using real-world financial tables and compare it to a state-of-the-art generative model and discuss the results. We make the dataset, model, and dataset generation code publicly available.
- Abstract(参考訳): 文書画像からのテーブル抽出は難しいAI問題であり、多くのコンテンツ領域のラベル付けされたデータを得るのは難しい。
既存のテーブル抽出データセットは、そのソースコードとともに、容易に入手できる膨大な学術論文のために、科学的なテーブルに焦点を当てることが多い。
しかし、科学的、財政的、その他の領域で見られる表の間には、大きなレイアウトと類型的差異がある。
現在のデータセットは、しばしば、テーブルに含まれる単語とその位置を欠いているが、代わりに、自然言語処理タスクにおける現代の機械学習モデルのトレーニングのためにこれらの特徴を抽出するために、信頼性の低いOCRに依存している。
したがって、ラベル付きデータを得るためのより一般的な方法が必要である。
SynFinTabsは、大規模にラベル付けされた合成財務表のデータセットである。
私たちの望みは、これらの合成テーブルを生成する方法は、他のドメインに転送可能であることです。
表画像から情報を抽出する学習モデルにおけるデータセットの有効性を示すために,抽出質問応答タスクに基づいて学習したレイアウト大言語モデルFinTabQAを作成する。
実世界の財務表を用いて本モデルをテストし,それを最先端の生成モデルと比較し,その結果について考察する。
データセット、モデル、およびデータセット生成コードを公開しています。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Synthesizing Realistic Data for Table Recognition [4.500373384879752]
本稿では,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
中国の金融発表から表の構造と内容を活用することで、我々は最初の広範囲な表アノテーションデータセットを開発した。
我々は、中国の金融発表領域における実世界の複合表の初歩的ベンチマークを確立し、このベンチマークを用いて、我々の合成データに基づいてトレーニングされたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-04-17T06:36:17Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z) - TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables [1.4115224153549193]
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
論文 参考訳(メタデータ) (2021-05-12T05:13:38Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。