論文の概要: TableParser: Automatic Table Parsing with Weak Supervision from
Spreadsheets
- arxiv url: http://arxiv.org/abs/2201.01654v1
- Date: Wed, 5 Jan 2022 15:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:20:16.216454
- Title: TableParser: Automatic Table Parsing with Weak Supervision from
Spreadsheets
- Title(参考訳): TableParser:スプレッドシートからの弱スーパービジョンを備えたテーブルパース
- Authors: Susie Xi Rao, Johannes Rausch, Peter Egger, Ce Zhang
- Abstract要約: 本研究では,ネイティブPDFとスキャン画像の両方のテーブルを高精度に解析できるシステムを提案する。
また、スプレッドシートベースの弱監視機構を構成する TableAnnotator と ExcelAnnotator も作成します。
- 参考スコア(独自算出の注目度): 5.5347995556789105
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tables have been an ever-existing structure to store data. There exist now
different approaches to store tabular data physically. PDFs, images,
spreadsheets, and CSVs are leading examples. Being able to parse table
structures and extract content bounded by these structures is of high
importance in many applications. In this paper, we devise TableParser, a system
capable of parsing tables in both native PDFs and scanned images with high
precision. We have conducted extensive experiments to show the efficacy of
domain adaptation in developing such a tool. Moreover, we create TableAnnotator
and ExcelAnnotator, which constitute a spreadsheet-based weak supervision
mechanism and a pipeline to enable table parsing. We share these resources with
the research community to facilitate further research in this interesting
direction.
- Abstract(参考訳): テーブルは、データを保存するための既存の構造です。
表データを物理的に保存するアプローチは、現在さまざまなものがある。
PDF、画像、スプレッドシート、CSVなどが主要な例である。
テーブル構造を解析し、これらの構造に縛られたコンテンツを抽出できることは多くのアプリケーションにおいて非常に重要である。
本稿では,tableparserを開発した。tableparserは,ネイティブpdfとスキャン画像の両方のテーブルを高精度に解析できるシステムである。
このようなツールの開発において,ドメイン適応の有効性を示す大規模な実験を行った。
さらに、表解析を可能にするためのスプレッドシートベースの弱監督機構とパイプラインを構成するTableAnnotatorとExcelAnnotatorを作成する。
我々はこれらの資源を研究コミュニティと共有し、この興味深い方向へのさらなる研究を促進する。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TableFormer: Table Structure Understanding with Transformers [2.121963121603413]
テーブル構造同定モデルを提案する。
テーブルセルのための新しいオブジェクト検出デコーダ
次に、LSTMデコーダを変換器ベースのデコーダに置き換える。
論文 参考訳(メタデータ) (2022-03-02T10:46:24Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。