論文の概要: TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables
- arxiv url: http://arxiv.org/abs/2105.06400v1
- Date: Wed, 12 May 2021 05:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 04:10:13.782155
- Title: TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables
- Title(参考訳): tablex: 科学表から構造化およびコンテンツ情報抽出のためのベンチマークデータセット
- Authors: Harsh Desai, Pratik Kayal, Mayank Singh
- Abstract要約: 本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
- 参考スコア(独自算出の注目度): 1.4115224153549193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Extraction (IE) from the tables present in scientific articles is
challenging due to complicated tabular representations and complex embedded
text. This paper presents TabLeX, a large-scale benchmark dataset comprising
table images generated from scientific articles. TabLeX consists of two
subsets, one for table structure extraction and the other for table content
extraction. Each table image is accompanied by its corresponding LATEX source
code. To facilitate the development of robust table IE tools, TabLeX contains
images in different aspect ratios and in a variety of fonts. Our analysis sheds
light on the shortcomings of current state-of-the-art table extraction models
and shows that they fail on even simple table images. Towards the end, we
experiment with a transformer-based existing baseline to report performance
scores. In contrast to the static benchmarks, we plan to augment this dataset
with more complex and diverse tables at regular intervals.
- Abstract(参考訳): 学術論文の表から情報抽出(IE)は複雑な表表表現と複雑な組込みテキストのために困難である。
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
TabLeXは2つのサブセットで構成されており、1つはテーブル構造抽出用、もう1つはテーブルコンテンツ抽出用である。
各テーブルイメージには対応するLATEXソースコードが添付されている。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
最後に、パフォーマンススコアを報告するためにトランスフォーマティブベースの既存のベースラインを実験する。
静的ベンチマークとは対照的に、このデータセットはより複雑で多様なテーブルを一定間隔で拡張する予定である。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - HYTREL: Hypergraph-enhanced Tabular Data Representation Learning [36.731257438472035]
HYTRELは、行/列の置換不変性と、表データの3つのより構造的な特性をキャプチャする言語モデルである。
HYTRELは、最小限の事前学習を伴う4つの下流タスクにおいて、他の競争ベースラインを一貫して上回ることを示す。
我々の定性的分析は、HYTRELがテーブル構造を同化して、セル、行、列、テーブル全体の堅牢な表現を生成することができることを示した。
論文 参考訳(メタデータ) (2023-07-14T05:41:22Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Tables to LaTeX: structure and content extraction from scientific tables [0.848135258677752]
我々は,トランスフォーマーに基づく言語モデリングパラダイムを,科学テーブル構造とコンテンツ抽出に適用する。
我々は, 表構造と内容抽出において, 70.35 と 49.69% の正確な一致精度を達成した。
論文 参考訳(メタデータ) (2022-10-31T12:08:39Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。