論文の概要: TSRFormer: Table Structure Recognition with Transformers
- arxiv url: http://arxiv.org/abs/2208.04921v1
- Date: Tue, 9 Aug 2022 17:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:53:06.648756
- Title: TSRFormer: Table Structure Recognition with Transformers
- Title(参考訳): tsrformer: トランスフォーマによるテーブル構造認識
- Authors: Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun,
Qiang Huo
- Abstract要約: 本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 15.708108572696064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new table structure recognition (TSR) approach, called
TSRFormer, to robustly recognizing the structures of complex tables with
geometrical distortions from various table images. Unlike previous methods, we
formulate table separation line prediction as a line regression problem instead
of an image segmentation problem and propose a new two-stage DETR based
separator prediction approach, dubbed \textbf{Sep}arator \textbf{RE}gression
\textbf{TR}ansformer (SepRETR), to predict separation lines from table images
directly. To make the two-stage DETR framework work efficiently and effectively
for the separation line prediction task, we propose two improvements: 1) A
prior-enhanced matching strategy to solve the slow convergence issue of DETR;
2) A new cross attention module to sample features from a high-resolution
convolutional feature map directly so that high localization accuracy is
achieved with low computational cost. After separation line prediction, a
simple relation network based cell merging module is used to recover spanning
cells. With these new techniques, our TSRFormer achieves state-of-the-art
performance on several benchmark datasets, including SciTSR, PubTabNet and WTW.
Furthermore, we have validated the robustness of our approach to tables with
complex structures, borderless cells, large blank spaces, empty or spanning
cells as well as distorted or even curved shapes on a more challenging
real-world in-house dataset.
- Abstract(参考訳): 本稿では,様々なテーブル画像から幾何学的歪みを持つ複雑なテーブルの構造をロバストに認識する新しいテーブル構造認識法であるtsrformerを提案する。
従来の手法と異なり,画像分割問題ではなく行回帰問題としてテーブル分離線予測を定式化し,テーブル画像からの分離線を直接予測するために,新しい二段階分離子予測手法である \textbf{sep}arator \textbf{re}gression \textbf{tr}ansformer (sepretr)を提案する。
2段階のDETRフレームワークを効率的かつ効果的に分離ライン予測タスクに適用するために,2つの改良点を提案する。
1) detrのゆっくりとした収束問題を解決するための事前のマッチング戦略
2) 高分解能畳み込み特徴マップから特徴をサンプリングするための新しいクロスアテンションモジュールは,低計算コストで高い局所化精度を達成する。
分離線予測の後、単純な関係ネットワークベースのセルマージモジュールを使用して、分散セルを復元する。
これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセット上で最先端のパフォーマンスを達成する。
さらに、複雑な構造、境界のないセル、大きな空白の空間、空またはスパンのセル、さらにはより困難な実世界のデータセット上で歪んだ、あるいは曲がった形状を持つテーブルへのアプローチの堅牢性も検証しました。
関連論文リスト
- SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - LORE++: Logical Location Regression Network for Table Structure
Recognition with Pre-training [45.80561537971478]
表構造認識(TSR)は、画像中のテーブルを機械で理解可能な形式に抽出することを目的としている。
我々は、論理的位置回帰問題としてTSRをモデル化し、LOREと呼ばれる新しいTSRフレームワークを提案する。
提案するLOREは概念的にシンプルで、訓練が容易で、TSRの他のパラダイムよりも正確です。
論文 参考訳(メタデータ) (2024-01-03T03:14:55Z) - TRACE: Table Reconstruction Aligned to Corner and Edges [7.536220920052911]
そこで我々は,テーブルがセルで構成され,各セルがエッジからなる境界で構成されているテーブルの自然特性を解析した。
ボトムアップ方式でテーブルを再構築する新しい手法を提案する。
シンプルな設計はモデルを訓練しやすくし、以前の2段階の手法よりも少ない計算を必要とする。
論文 参考訳(メタデータ) (2023-05-01T02:26:15Z) - Robust Table Structure Recognition with Dynamic Queries Enhanced
Detection Transformer [15.708108572696062]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-21T06:20:49Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - LORE: Logical Location Regression Network for Table Structure
Recognition [24.45544796305824]
テーブル構造認識は、画像中のテーブルを機械的に理解可能なフォーマットに抽出することを目的としている。
近年の方法では,検出されたセルボックスの隣接関係を予測してこの問題を解決している。
LOREと呼ばれる新しいTSRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-07T08:42:46Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Robust Table Detection and Structure Recognition from Heterogeneous
Document Images [6.961470641696773]
我々はRobusTabNetを導入し、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築する。
テーブル検出のために、我々は、より高速なR-CNNのための高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案する。
我々の表構造認識手法は,SciTSR,PubTabNet,cTDaR TrackBの3つの公開ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-17T03:35:12Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。