論文の概要: TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers
- arxiv url: http://arxiv.org/abs/2208.14687v1
- Date: Wed, 31 Aug 2022 08:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:26:47.817677
- Title: TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers
- Title(参考訳): TRUST:分割型変換器を用いたテーブル構造認識器
- Authors: Zengyuan Guo, Yuechen Yu, Pengyuan Lv, Chengquan Zhang, Haojie Li,
Zhihui Wang, Kun Yao, Jingtuo Liu, Jingdong Wang
- Abstract要約: 本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
- 参考スコア(独自算出の注目度): 56.56591337457137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table structure recognition is a crucial part of document image analysis
domain. Its difficulty lies in the need to parse the physical coordinates and
logical indices of each cell at the same time. However, the existing methods
are difficult to achieve both these goals, especially when the table splitting
lines are blurred or tilted. In this paper, we propose an accurate and
end-to-end transformer-based table structure recognition method, referred to as
TRUST. Transformers are suitable for table structure recognition because of
their global computations, perfect memory, and parallel computation. By
introducing novel Transformer-based Query-based Splitting Module and
Vertex-based Merging Module, the table structure recognition problem is
decoupled into two joint optimization sub-tasks: multi-oriented table
row/column splitting and table grid merging. The Query-based Splitting Module
learns strong context information from long dependencies via Transformer
networks, accurately predicts the multi-oriented table row/column separators,
and obtains the basic grids of the table accordingly. The Vertex-based Merging
Module is capable of aggregating local contextual information between adjacent
basic grids, providing the ability to merge basic girds that belong to the same
spanning cell accurately. We conduct experiments on several popular benchmarks
including PubTabNet and SynthTable, our method achieves new state-of-the-art
results. In particular, TRUST runs at 10 FPS on PubTabNet, surpassing the
previous methods by a large margin.
- Abstract(参考訳): 表構造認識は文書画像解析領域の重要な部分である。
その難しさは、各セルの物理的座標と論理指標を同時に解析する必要性にある。
しかし,これらの目的,特にテーブル分割線がぼやけたり傾いたりする場合に,既存の手法は達成が困難である。
本稿では,TRUSTと呼ばれる高精度かつエンドツーエンドなテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
Transformerベースのクエリベースの分割モジュールとVertexベースのマージモジュールを導入することで、テーブル構造認識問題は2つの共同最適化サブタスクに分離される。
クエリベースのSplitting Moduleは、Transformerネットワークを介して長い依存関係から強いコンテキスト情報を学び、マルチ指向テーブル行/カラムセパレータを正確に予測し、それに従ってテーブルの基本グリッドを取得する。
頂点ベースのマージモジュールは、隣接する基本グリッド間で局所的なコンテキスト情報を集約し、同じスパンディングセルに属する基本桁を正確にマージする機能を提供する。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
特に、TRUSTはPubTabNet上で10 FPSで動作し、以前のメソッドをはるかに上回っている。
関連論文リスト
- SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - ClusterTabNet: Supervised clustering method for table detection and table structure recognition [0.0]
文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを一対の単語間の関係グラフとして解釈し、変圧器エンコーダモデルを用いてその隣接行列を予測する。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
論文 参考訳(メタデータ) (2024-02-12T09:10:24Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TSRFormer: Table Structure Recognition with Transformers [15.708108572696064]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-08-09T17:36:13Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - LGPMA: Complicated Table Structure Recognition with Local and Global
Pyramid Mask Alignment [54.768354427967296]
テーブル構造認識は、様々な構造と複雑な細胞間関係のために難しい課題である。
本研究では,局所・グローバルな特徴マップにソフトピラミッドマスク学習機構を採用した局所・グローバルピラミッドマスクアライメントの枠組みを提案する。
その後、ピラミッドマスク再記録モジュールが統合され、ローカルおよびグローバル情報を妥協し、予測される境界を洗練します。
論文 参考訳(メタデータ) (2021-05-13T12:24:12Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。