論文の概要: TableSeq: Unified Generation of Structure, Content, and Layout
- arxiv url: http://arxiv.org/abs/2604.16070v1
- Date: Fri, 17 Apr 2026 13:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.940848
- Title: TableSeq: Unified Generation of Structure, Content, and Layout
- Title(参考訳): TableSeq: 構造、コンテンツ、レイアウトの統一世代
- Authors: Laziz Hamdi, Amine Tamasna, Pascal Boisson, Thierry Paquet,
- Abstract要約: TableSeqは、共同テーブル構造認識、コンテンツ認識、セルローカライゼーションのための画像のみのエンドツーエンドフレームワークである。
1つのデコーダは、texttt HTMLタグ、セルテキスト、離散化された座標トークンのインターリーブストリームを生成する。
TableSeqは、アーキテクチャの単純さを維持しながら、競争または最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 2.5525721402846235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TableSeq, an image-only, end-to-end framework for joint table structure recognition, content recognition, and cell localization. The model formulates these tasks as a single sequence-generation problem: one decoder produces an interleaved stream of \texttt{HTML} tags, cell text, and discretized coordinate tokens, thereby aligning logical structure, textual content, and cell geometry within a unified autoregressive sequence. This design avoids external OCR, auxiliary decoders, and complex multi-stage post-processing. TableSeq combines a lightweight high-resolution FCN-H16 encoder with a minimal structure-prior head and a single-layer transformer encoder, yielding a compact architecture that remains effective on challenging layouts. Across standard benchmarks, TableSeq achieves competitive or state-of-the-art results while preserving architectural simplicity. It reaches 95.23 TEDS / 96.83 S-TEDS on PubTabNet, 97.45 TEDS / 98.69 S-TEDS on FinTabNet, and 99.79 / 99.54 / 99.66 precision / recall / F1 on SciTSR under the CAR protocol, while remaining competitive on PubTables-1M under GriTS. Beyond TSR/TCR, the same sequence interface generalizes to index-based table querying without task-specific heads, achieving the best IRDR score and competitive ICDR/ICR performance. We also study multi-token prediction for faster blockwise decoding and show that it reduces inference latency with only limited accuracy degradation. Overall, TableSeq provides a practical and reproducible single-stream baseline for unified table recognition, and the source code will be made publicly available at https://github.com/hamdilaziz/TableSeq.
- Abstract(参考訳): 本研究では,共同テーブル構造認識,コンテンツ認識,セルローカライゼーションのための,画像のみのエンドツーエンドフレームワークであるTableSeqを提案する。
1つのデコーダは \texttt{HTML} タグ、セルテキスト、および離散化された座標トークンのインターリーブストリームを生成し、それによって論理構造、テキストコンテンツ、セル幾何学を統一された自己回帰シーケンス内で整列する。
この設計は外部のOCR、補助デコーダ、複雑な多段後処理を回避している。
TableSeqは、軽量で高解像度のFCN-H16エンコーダと、最小限の構造優先ヘッドと単一層トランスフォーマーエンコーダを組み合わせており、難しいレイアウトで有効である。
標準ベンチマーク全体にわたって、TableSeqは、アーキテクチャの単純さを維持しながら、競争または最先端の結果を達成する。
PubTabNet上の95.23 TEDS / 96.83 S-TEDS、FinTabNet上の97.45 TEDS / 98.69 S-TEDS、CARプロトコル下でのSciTSR上の99.79 / 99.54 / 99.66 精度/リコール/F1に到達した。
TSR/TCR以外にも、同じシーケンスインタフェースはタスク固有のヘッドを使わずにインデックスベースのテーブルクエリに一般化され、最高のIRDRスコアと競合するICDR/ICRパフォーマンスを達成する。
また,ブロック単位の復号化を高速化するためのマルチトークン予測についても検討し,精度の低下を抑えながら推論遅延を低減することを示した。
全体として、TableSeqは、統一されたテーブル認識のための実用的で再現可能なシングルストリームベースラインを提供し、ソースコードはhttps://github.com/hamdilaziz/TableSeqで公開される。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - TABLET: Table Structure Recognition using Encoder-only Transformers [5.525467421201709]
大規模で人口密度の高いテーブルに最適化されたスプリット・マージに基づく新しいトップダウンモデルを提案する。
提案手法は行と列の分割をシーケンスラベリングタスクとして定式化し,デュアルトランスフォーマーエンコーダを用いて特徴的相互作用をキャプチャする。
本手法は,高速な処理速度を維持しながら高い精度を実現し,分解能損失と計算複雑性を低減する。
論文 参考訳(メタデータ) (2025-06-08T06:34:15Z) - High-Performance Transformers for Table Structure Recognition Need Early
Convolutions [25.04573593082671]
既存のアプローチでは、ビジュアルエンコーダには古典的畳み込みニューラルネットワーク(CNN)、テキストデコーダにはトランスフォーマーが使用されている。
表現力を犠牲にすることなくテーブル構造認識(TSR)のための軽量ビジュアルエンコーダを設計する。
畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。
論文 参考訳(メタデータ) (2023-11-09T18:20:52Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - LORE: Logical Location Regression Network for Table Structure
Recognition [24.45544796305824]
テーブル構造認識は、画像中のテーブルを機械的に理解可能なフォーマットに抽出することを目的としている。
近年の方法では,検出されたセルボックスの隣接関係を予測してこの問題を解決している。
LOREと呼ばれる新しいTSRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-07T08:42:46Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TableFormer: Table Structure Understanding with Transformers [2.121963121603413]
テーブル構造同定モデルを提案する。
テーブルセルのための新しいオブジェクト検出デコーダ
次に、LSTMデコーダを変換器ベースのデコーダに置き換える。
論文 参考訳(メタデータ) (2022-03-02T10:46:24Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。