論文の概要: LORE++: Logical Location Regression Network for Table Structure
Recognition with Pre-training
- arxiv url: http://arxiv.org/abs/2401.01522v1
- Date: Wed, 3 Jan 2024 03:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:23:26.037395
- Title: LORE++: Logical Location Regression Network for Table Structure
Recognition with Pre-training
- Title(参考訳): lore++:事前学習によるテーブル構造認識のための論理位置回帰ネットワーク
- Authors: Rujiao Long and Hangdi Xing and Zhibo Yang and Qi Zheng and Zhi Yu and
Cong Yao and Fei Huang
- Abstract要約: 表構造認識(TSR)は、画像中のテーブルを機械で理解可能な形式に抽出することを目的としている。
我々は、論理的位置回帰問題としてTSRをモデル化し、LOREと呼ばれる新しいTSRフレームワークを提案する。
提案するLOREは概念的にシンプルで、訓練が容易で、TSRの他のパラダイムよりも正確です。
- 参考スコア(独自算出の注目度): 45.80561537971478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table structure recognition (TSR) aims at extracting tables in images into
machine-understandable formats. Recent methods solve this problem by predicting
the adjacency relations of detected cell boxes or learning to directly generate
the corresponding markup sequences from the table images. However, existing
approaches either count on additional heuristic rules to recover the table
structures, or face challenges in capturing long-range dependencies within
tables, resulting in increased complexity. In this paper, we propose an
alternative paradigm. We model TSR as a logical location regression problem and
propose a new TSR framework called LORE, standing for LOgical location
REgression network, which for the first time regresses logical location as well
as spatial location of table cells in a unified network. Our proposed LORE is
conceptually simpler, easier to train, and more accurate than other paradigms
of TSR. Moreover, inspired by the persuasive success of pre-trained models on a
number of computer vision and natural language processing tasks, we propose two
pre-training tasks to enrich the spatial and logical representations at the
feature level of LORE, resulting in an upgraded version called LORE++. The
incorporation of pre-training in LORE++ has proven to enjoy significant
advantages, leading to a substantial enhancement in terms of accuracy,
generalization, and few-shot capability compared to its predecessor.
Experiments on standard benchmarks against methods of previous paradigms
demonstrate the superiority of LORE++, which highlights the potential and
promising prospect of the logical location regression paradigm for TSR.
- Abstract(参考訳): テーブル構造認識(tsr)は、画像中のテーブルを機械理解可能なフォーマットに抽出することを目的としている。
近年の方法は、検出されたセルボックスの隣接関係を予測したり、テーブル画像から対応するマークアップシーケンスを直接生成する学習によってこの問題を解決している。
しかし、既存のアプローチでは、テーブル構造を復元するための追加のヒューリスティックなルールをカウントするか、テーブル内の長距離依存関係をキャプチャする課題に直面し、複雑さが増す。
本稿では,代替パラダイムを提案する。
我々は、論理的位置回帰問題としてTSRをモデル化し、論理的位置回帰ネットワーク(LORE)と呼ばれる新しいTSRフレームワークを提案する。
提案手法は概念的にシンプルで,訓練が容易で,tsrの他のパラダイムよりも正確である。
さらに,多くのコンピュータビジョンおよび自然言語処理タスクにおける事前学習モデルの成功に触発されて,loreの特徴レベルで空間的および論理的な表現を豊かにするための2つの事前学習タスクを提案し,lore++と呼ばれる改良版を実現した。
lore++での事前トレーニングの導入は大きなメリットを享受していることが証明されており、前者に比べて正確性、一般化、少数ショット能力が大幅に向上した。
従来のパラダイムのメソッドに対する標準ベンチマークの実験は、LORE++の優位性を示し、TSRの論理的位置回帰パラダイムの可能性と将来性を強調している。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Robust Table Structure Recognition with Dynamic Queries Enhanced
Detection Transformer [15.708108572696062]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-21T06:20:49Z) - LORE: Logical Location Regression Network for Table Structure
Recognition [24.45544796305824]
テーブル構造認識は、画像中のテーブルを機械的に理解可能なフォーマットに抽出することを目的としている。
近年の方法では,検出されたセルボックスの隣接関係を予測してこの問題を解決している。
LOREと呼ばれる新しいTSRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-07T08:42:46Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z) - TSRFormer: Table Structure Recognition with Transformers [15.708108572696064]
本稿では,TSRFormerと呼ばれる新しいテーブル構造認識手法を提案する。
新たな2段階DETRに基づくセパレータ予測手法である textbfSeparator textbfREgression textbfTRansformer (SepRETR) を提案する。
我々は、SciTSR、PubTabNet、WTWなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-08-09T17:36:13Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。