論文の概要: ClusterTabNet: Supervised clustering method for table detection and table structure recognition
- arxiv url: http://arxiv.org/abs/2402.07502v2
- Date: Thu, 23 May 2024 11:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:50:03.332279
- Title: ClusterTabNet: Supervised clustering method for table detection and table structure recognition
- Title(参考訳): ClusterTabNet:テーブル検出とテーブル構造認識のための監視クラスタリング手法
- Authors: Marek Polewczyk, Marco Spinaci,
- Abstract要約: 文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを一対の単語間の関係グラフとして解釈し、変圧器エンコーダモデルを用いてその隣接行列を予測する。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel deep-learning-based method to cluster words in documents which we apply to detect and recognize tables given the OCR output. We interpret table structure bottom-up as a graph of relations between pairs of words (belonging to the same row, column, header, as well as to the same table) and use a transformer encoder model to predict its adjacency matrix. We demonstrate the performance of our method on the PubTables-1M dataset as well as PubTabNet and FinTabNet datasets. Compared to the current state-of-the-art detection methods such as DETR and Faster R-CNN, our method achieves similar or better accuracy, while requiring a significantly smaller model.
- Abstract(参考訳): 文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを、一対の単語(同じ行、列、ヘッダ、同じテーブル)間の関係のグラフとして解釈し、その隣接行列を予測するためにトランスフォーマーエンコーダモデルを使用する。
PubTabNetおよびFinTabNetデータセットと同様にPubTables-1Mデータセット上で,本手法の性能を示す。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
関連論文リスト
- SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Robust Table Detection and Structure Recognition from Heterogeneous
Document Images [6.961470641696773]
我々はRobusTabNetを導入し、テーブルの境界を検出し、異種文書画像からテーブルの細胞構造を再構築する。
テーブル検出のために、我々は、より高速なR-CNNのための高品質なテーブル提案を生成するために、新しい領域提案ネットワークとしてCornerNetを使用することを提案する。
我々の表構造認識手法は,SciTSR,PubTabNet,cTDaR TrackBの3つの公開ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-17T03:35:12Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。