論文の概要: TableFormer: Table Structure Understanding with Transformers
- arxiv url: http://arxiv.org/abs/2203.01017v1
- Date: Wed, 2 Mar 2022 10:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 00:42:32.544195
- Title: TableFormer: Table Structure Understanding with Transformers
- Title(参考訳): TableFormer: トランスフォーマーによるテーブル構造理解
- Authors: Ahmed Nassar, Nikolaos Livathinos, Maksym Lysak, Peter Staar
- Abstract要約: テーブル構造同定モデルを提案する。
テーブルセルのための新しいオブジェクト検出デコーダ
次に、LSTMデコーダを変換器ベースのデコーダに置き換える。
- 参考スコア(独自算出の注目度): 2.121963121603413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables organize valuable content in a concise and compact representation.
This content is extremely valuable for systems such as search engines,
Knowledge Graph's, etc, since they enhance their predictive capabilities.
Unfortunately, tables come in a large variety of shapes and sizes. Furthermore,
they can have complex column/row-header configurations, multiline rows,
different variety of separation lines, missing entries, etc. As such, the
correct identification of the table-structure from an image is a non-trivial
task. In this paper, we present a new table-structure identification model. The
latter improves the latest end-to-end deep learning model (i.e.
encoder-dual-decoder from PubTabNet) in two significant ways. First, we
introduce a new object detection decoder for table-cells. In this way, we can
obtain the content of the table-cells from programmatic PDF's directly from the
PDF source and avoid the training of the custom OCR decoders. This
architectural change leads to more accurate table-content extraction and allows
us to tackle non-english tables. Second, we replace the LSTM decoders with
transformer based decoders. This upgrade improves significantly the previous
state-of-the-art tree-editing-distance-score (TEDS) from 91% to 98.5% on simple
tables and from 88.7% to 95% on complex tables.
- Abstract(参考訳): テーブルは簡潔でコンパクトな表現で貴重なコンテンツを整理する。
この内容は, 検索エンジンや知識グラフなどのシステムにおいて, 予測能力を高めるために非常に有用である。
残念ながら、テーブルには様々な形とサイズがあります。
さらに、複雑なカラム/ローヘッダの設定、複数行の行、さまざまな種類の分離ライン、エントリの欠如などを持つことができる。
したがって、画像からテーブル構造を正しく識別することは、非自明な作業である。
本稿では,新しい表構造同定モデルを提案する。
後者は、最新のエンドツーエンドディープラーニングモデル(PubTabNetの encoder-dual-decoder)を2つの重要な方法で改善する。
まず,テーブルセルのための新しいオブジェクト検出デコーダを提案する。
このようにして、プログラムによるPDFからテーブルセルの内容をPDFソースから直接取得し、カスタムOCRデコーダのトレーニングを避けることができる。
このアーキテクチャ変更により、より正確なテーブルコンテント抽出が可能になり、非英語のテーブルに取り組めます。
次に、LSTMデコーダを変換器ベースのデコーダに置き換える。
このアップグレードは、以前の最先端ツリー編集距離スコア(teds)を単純なテーブルでは91%から98.5%に、複雑なテーブルでは88.7%から95%に大幅に改善した。
関連論文リスト
- SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TableParser: Automatic Table Parsing with Weak Supervision from
Spreadsheets [5.5347995556789105]
本研究では,ネイティブPDFとスキャン画像の両方のテーブルを高精度に解析できるシステムを提案する。
また、スプレッドシートベースの弱監視機構を構成する TableAnnotator と ExcelAnnotator も作成します。
論文 参考訳(メタデータ) (2022-01-05T15:21:06Z) - MATE: Multi-view Attention for Table Transformer Efficiency [21.547074431324024]
ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。
現在のTransformerモデルは一般的に512トークンに制限されている。
本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
論文 参考訳(メタデータ) (2021-09-09T14:39:30Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。