論文の概要: Robust Table Structure Recognition with Dynamic Queries Enhanced
Detection Transformer
- arxiv url: http://arxiv.org/abs/2303.11615v2
- Date: Wed, 12 Jul 2023 09:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 19:39:19.424014
- Title: Robust Table Structure Recognition with Dynamic Queries Enhanced
Detection Transformer
- Title(参考訳): 動的クエリ拡張検出トランスを用いたロバストテーブル構造認識
- Authors: Jiawei Wang, Weihong Lin, Chixiang Ma, Mingze Li, Zheng Sun, Lei Sun,
Qiang Huo
- Abstract要約: 本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 15.708108572696062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new table structure recognition (TSR) approach, called
TSRFormer, to robustly recognizing the structures of complex tables with
geometrical distortions from various table images. Unlike previous methods, we
formulate table separation line prediction as a line regression problem instead
of an image segmentation problem and propose a new two-stage dynamic queries
enhanced DETR based separation line regression approach, named DQ-DETR, to
predict separation lines from table images directly. Compared to Vallina DETR,
we propose three improvements in DQ-DETR to make the two-stage DETR framework
work efficiently and effectively for the separation line prediction task: 1) A
new query design, named Dynamic Query, to decouple single line query into
separable point queries which could intuitively improve the localization
accuracy for regression tasks; 2) A dynamic queries based progressive line
regression approach to progressively regressing points on the line which
further enhances localization accuracy for distorted tables; 3) A
prior-enhanced matching strategy to solve the slow convergence issue of DETR.
After separation line prediction, a simple relation network based cell merging
module is used to recover spanning cells. With these new techniques, our
TSRFormer achieves state-of-the-art performance on several benchmark datasets,
including SciTSR, PubTabNet, WTW and FinTabNet. Furthermore, we have validated
the robustness and high localization accuracy of our approach to tables with
complex structures, borderless cells, large blank spaces, empty or spanning
cells as well as distorted or even curved shapes on a more challenging
real-world in-house dataset.
- Abstract(参考訳): 本稿では,様々なテーブル画像から幾何学的歪みを持つ複雑なテーブルの構造をロバストに認識する新しいテーブル構造認識法であるtsrformerを提案する。
従来の手法と異なり,画像分割問題ではなく行回帰問題としてテーブル分離線予測を定式化し,dq-detrと呼ばれる新しい2段階動的クエリ拡張detr法を提案し,テーブル画像からの分離線を直接予測する。
Vallina DETRと比較して、DQ-DETRの3つの改良点を提案し、2段階のDETRフレームワークを効率的に効率的に動作させる。
1) リグレッションタスクの局所化精度を直感的に向上させるため,単一行クエリを分離可能なポイントクエリに分離するdynamic queryという新しいクエリ設計。
2) 動的クエリに基づく進行線回帰法による線上の点の漸進回帰アプローチは,歪んだ表の局所化精度をさらに向上させる。
3) detrの遅い収束問題を解決するための事前のマッチング戦略。
分離線予測の後、単純な関係ネットワークベースのセルマージモジュールを使用して、分散セルを復元する。
これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。
さらに, 複雑な構造, 境界のない細胞, 大きな空白空間, 空白セル, あるいは分散セル, および, より困難な実世界の実世界のデータセット上での歪みや湾曲形状のテーブルに対する, アプローチの堅牢性と高い局所化精度を検証した。
関連論文リスト
- SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - LORE++: Logical Location Regression Network for Table Structure
Recognition with Pre-training [45.80561537971478]
表構造認識(TSR)は、画像中のテーブルを機械で理解可能な形式に抽出することを目的としている。
我々は、論理的位置回帰問題としてTSRをモデル化し、LOREと呼ばれる新しいTSRフレームワークを提案する。
提案するLOREは概念的にシンプルで、訓練が容易で、TSRの他のパラダイムよりも正確です。
論文 参考訳(メタデータ) (2024-01-03T03:14:55Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - LORE: Logical Location Regression Network for Table Structure
Recognition [24.45544796305824]
テーブル構造認識は、画像中のテーブルを機械的に理解可能なフォーマットに抽出することを目的としている。
近年の方法では,検出されたセルボックスの隣接関係を予測してこの問題を解決している。
LOREと呼ばれる新しいTSRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-07T08:42:46Z) - Learning Cross-view Geo-localization Embeddings via Dynamic Weighted
Decorrelation Regularization [52.493240055559916]
クロスビュージオローカライゼーションは、ドローンプラットフォームと衛星プラットフォームという2つのプラットフォームから撮影された同じ位置の画像を見つけることを目的としている。
既存の手法は、通常、特徴空間内の他のものとの埋め込み距離を最適化することに焦点を当てる。
本稿では、低冗長性も重要であり、モデルがより多様なパターンをマイニングする動機となっていると論じる。
論文 参考訳(メタデータ) (2022-11-10T02:13:10Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TSRFormer: Table Structure Recognition with Transformers [15.708108572696064]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-08-09T17:36:13Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。