論文の概要: Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios
- arxiv url: http://arxiv.org/abs/2504.17522v1
- Date: Thu, 24 Apr 2025 13:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.372347
- Title: Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios
- Title(参考訳): 異種シナリオに対する並列回帰を用いた一段階の表構造認識に向けて
- Authors: Anyi Xiao, Cihui Yang,
- Abstract要約: テーブル構造認識は、非構造化データのテーブルを機械的に理解可能な形式に解析することを目的としている。
最近の手法では、2段階のプロセスや最適化された1段階のアプローチによってこの問題に対処している。
本研究では,TableCenterNetと呼ばれる一段階のテーブル構造解析ネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table structure recognition aims to parse tables in unstructured data into machine-understandable formats. Recent methods address this problem through a two-stage process or optimized one-stage approaches. However, these methods either require multiple networks to be serially trained and perform more time-consuming sequential decoding, or rely on complex post-processing algorithms to parse the logical structure of tables. They struggle to balance cross-scenario adaptability, robustness, and computational efficiency. In this paper, we propose a one-stage end-to-end table structure parsing network called TableCenterNet. This network unifies the prediction of table spatial and logical structure into a parallel regression task for the first time, and implicitly learns the spatial-logical location mapping laws of cells through a synergistic architecture of shared feature extraction layers and task-specific decoding. Compared with two-stage methods, our method is easier to train and faster to infer. Experiments on benchmark datasets show that TableCenterNet can effectively parse table structures in diverse scenarios and achieve state-of-the-art performance on the TableGraph-24k dataset. Code is available at https://github.com/dreamy-xay/TableCenterNet.
- Abstract(参考訳): テーブル構造認識は、非構造化データのテーブルを機械的に理解可能な形式に解析することを目的としている。
最近の手法では、2段階のプロセスや最適化された1段階のアプローチによってこの問題に対処している。
しかし、これらの手法は、連続的にトレーニングされ、より時間を要するシーケンシャルデコードを実行するために複数のネットワークを必要とするか、あるいはテーブルの論理構造を解析するために複雑な後処理アルゴリズムに依存する。
彼らはシナリオ間の適応性、堅牢性、計算効率のバランスをとるのに苦労している。
本稿では,TableCenterNetと呼ばれる一段階のテーブル構造解析ネットワークを提案する。
本ネットワークは、表空間と論理構造の予測を初めて並列回帰タスクに統一し、共有特徴抽出層とタスク固有復号の相乗的アーキテクチャにより、セルの空間的位置マッピング則を暗黙的に学習する。
2段階法と比較して,本手法は訓練が容易で,推論が高速である。
ベンチマークデータセットの実験では、TableCenterNetはさまざまなシナリオでテーブル構造を効果的に解析し、TableGraph-24kデータセットで最先端のパフォーマンスを達成することができる。
コードはhttps://github.com/dreamy-xay/TableCenterNetで入手できる。
関連論文リスト
- 2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models [48.123582712115336]
既存の方法はしばしば2次元のテーブル構造をトークンの列に平らにする。
2D-TPEは、計算効率を保ちながら本質的な空間情報を失うリスクを効果的に軽減する。
5つのベンチマークによる大規模な実験は、2D-TPEが強いベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-29T13:16:37Z) - SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - TRACE: Table Reconstruction Aligned to Corner and Edges [7.536220920052911]
そこで我々は,テーブルがセルで構成され,各セルがエッジからなる境界で構成されているテーブルの自然特性を解析した。
ボトムアップ方式でテーブルを再構築する新しい手法を提案する。
シンプルな設計はモデルを訓練しやすくし、以前の2段階の手法よりも少ない計算を必要とする。
論文 参考訳(メタデータ) (2023-05-01T02:26:15Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Parsing Table Structures in the Wild [31.72347768545413]
本稿では,野生の画像からテーブル構造解析(TSP)の問題に取り組む。
本稿では,CenterNet上にCycle-CenterNetという新しいサイクルペアリングモジュールを持つアプローチを提案する。
実験では,我々のCycle-CenterNetが新しいWTWデータセット上でのテーブル構造解析の精度を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2021-09-06T01:05:48Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。