論文の概要: FastTab: A Fast Table Recognizer with a Tiny Recursive Module and 1D Transformers
- arxiv url: http://arxiv.org/abs/2605.22422v1
- Date: Thu, 21 May 2026 12:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.259466
- Title: FastTab: A Fast Table Recognizer with a Tiny Recursive Module and 1D Transformers
- Title(参考訳): FastTab: Tiny Recursive Moduleと1Dトランスフォーマーを備えた高速テーブル認識器
- Authors: Laziz Hamdi, Amine Tamasna, Pascal Boisson, Thierry Paquet,
- Abstract要約: テーブル構造認識(TSR)は、テーブルレベルのコヒーレンスと正確なセパレータのローカライゼーションの両方を必要とする。
我々は,自己回帰HTMLデコーディングを回避するグリッド中心のTSRモデルであるFastTabを紹介する。
FastTabは低レイテンシ推論で動作しながら、競合構造回復性能を達成する。
- 参考スコア(独自算出の注目度): 2.5525721402846235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table structure recognition (TSR) requires both table-level coherence (row/column counts, headers, spanning cells) and precise separator localization. We introduce FastTab, a grid-centric TSR model that avoids autoregressive HTML decoding by combining (i) a lightweight Tiny Recursive Module (TRM) for global reasoning and (ii) axial 1D Transformer encoders that capture long-range dependencies along rows and columns. The model predicts row/column counts, header rows, and separators to construct a grid, then infers rowspan/colspan using ROI-aligned cell features. Across four benchmarks (PubTabNet, FinTabNet, PubTables-1M, and SciTSR), FastTab achieves competitive structure recovery performance while operating at low-latency inference. We further study robustness under pixel-level anonymisation and show an extension to curved separators for camera-captured documents. The source code will be made publicly available at https://github.com/hamdilaziz/FastTab .
- Abstract(参考訳): テーブル構造認識(TSR)には、テーブルレベルのコヒーレンス(ロウ/カラム数、ヘッダ、スパンニングセル)と正確なセパレータのローカライゼーションの両方が必要である。
グリッド中心のTSRモデルであるFastTabを導入する。
(i)グローバル推論のための軽量Tiny Recursive Module(TRM)
(ii)行や列に沿った長距離依存関係をキャプチャする軸1Dトランスフォーマーエンコーダ。
このモデルは、行/列数、ヘッダ行、セパレータを予測してグリッドを構築する。
4つのベンチマーク(PubTabNet、FinTabNet、PubTables-1M、SciTSR)において、FastTabは低遅延で動作しながら競合構造回復性能を達成する。
さらに、画素レベルの匿名化下での堅牢性について検討し、カメラキャプチャード文書に対する曲線分離器の拡張を示す。
ソースコードはhttps://github.com/hamdilaziz/FastTab で公開されます。
関連論文リスト
- TableSeq: Unified Generation of Structure, Content, and Layout [2.5525721402846235]
TableSeqは、共同テーブル構造認識、コンテンツ認識、セルローカライゼーションのための画像のみのエンドツーエンドフレームワークである。
1つのデコーダは、texttt HTMLタグ、セルテキスト、離散化された座標トークンのインターリーブストリームを生成する。
TableSeqは、アーキテクチャの単純さを維持しながら、競争または最先端の結果を達成する。
論文 参考訳(メタデータ) (2026-04-17T13:54:38Z) - TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment [70.83664203825235]
TDATR(Table Detail-Aware Table Recognition)は、テーブルの詳細学習とセルレベルの視覚アライメントにより、エンドツーエンドのTRを改善する。
データセット固有の微調整なしで、7つのベンチマークで最先端または高い競争性能を達成する。
論文 参考訳(メタデータ) (2026-03-24T05:45:02Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - ClusterTabNet: Supervised clustering method for table detection and table structure recognition [0.0]
文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを一対の単語間の関係グラフとして解釈し、変圧器エンコーダモデルを用いてその隣接行列を予測する。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
論文 参考訳(メタデータ) (2024-02-12T09:10:24Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TSRFormer: Table Structure Recognition with Transformers [15.708108572696064]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-08-09T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。