論文の概要: SepFormer: Coarse-to-fine Separator Regression Network for Table Structure Recognition
- arxiv url: http://arxiv.org/abs/2506.21920v1
- Date: Fri, 27 Jun 2025 05:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.097225
- Title: SepFormer: Coarse-to-fine Separator Regression Network for Table Structure Recognition
- Title(参考訳): SepFormer:テーブル構造認識のための粗大小分離器回帰ネットワーク
- Authors: Nam Quan Nguyen, Xuan Phong Pham, Tuan-Anh Tran,
- Abstract要約: 本稿では,SepFormerについて紹介する。SepFormerは分割とマージのパラダイムを,DETRスタイルのアーキテクチャとセパレータレグレッションを通じて単一のステップに統合する。
SepFormerは平均25.6FPSで実行でき、いくつかのベンチマークデータセットで最先端のメソッドと同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The automated reconstruction of the logical arrangement of tables from image data, termed Table Structure Recognition (TSR), is fundamental for semantic data extraction. Recently, researchers have explored a wide range of techniques to tackle this problem, demonstrating significant progress. Each table is a set of vertical and horizontal separators. Following this realization, we present SepFormer, which integrates the split-and-merge paradigm into a single step through separator regression with a DETR-style architecture, improving speed and robustness. SepFormer is a coarse-to-fine approach that predicts table separators from single-line to line-strip separators with a stack of two transformer decoders. In the coarse-grained stage, the model learns to gradually refine single-line segments through decoder layers with additional angle loss. At the end of the fine-grained stage, the model predicts line-strip separators by refining sampled points from each single-line segment. Our SepFormer can run on average at 25.6 FPS while achieving comparable performance with state-of-the-art methods on several benchmark datasets, including SciTSR, PubTabNet, WTW, and iFLYTAB.
- Abstract(参考訳): 表構造認識(TSR)と呼ばれる画像データから表の論理的配置を自動的に再構築することは、意味的データ抽出の基盤となる。
近年、研究者はこの問題に対処するための幅広い手法を探求し、大きな進歩を見せている。
各テーブルは縦と横のセパレータのセットです。
この実現に続いて、SepFormerを提案する。SepFormerは分割とマージのパラダイムを、分離器回帰とDETRスタイルのアーキテクチャにより単一のステップに統合し、スピードとロバスト性を向上する。
SepFormerは、テーブルセパレータを2つのトランスフォーマーデコーダのスタックでシングルラインからラインストリップセパレータに予測する粗大なアプローチである。
粗粒度モデルでは、デコーダ層を付加する角度損失により、単線セグメントを徐々に洗練することを学ぶ。
細粒度ステージの最後には、各単線セグメントからサンプリングされた点を精製することにより、ラインストリップセパレータを予測する。
SepFormerは平均25.6FPSで動作でき、SciTSR、PubTabNet、WTW、iFLYTABなど、いくつかのベンチマークデータセットで最先端のメソッドで同等のパフォーマンスを実現しています。
関連論文リスト
- SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - Robust Table Structure Recognition with Dynamic Queries Enhanced
Detection Transformer [15.708108572696062]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-21T06:20:49Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TSRFormer: Table Structure Recognition with Transformers [15.708108572696064]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-08-09T17:36:13Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。