論文の概要: TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism
- arxiv url: http://arxiv.org/abs/2501.11800v1
- Date: Tue, 21 Jan 2025 00:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:26.432028
- Title: TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism
- Title(参考訳): TFLOP:レイアウトポインタ機構を備えたテーブル構造認識フレームワーク
- Authors: Minsoo Khang, Teakgyu Hong,
- Abstract要約: テーブル構造認識(TSR)は、テーブルイメージを機械可読フォーマット(HTMLなど)に変換するタスクである。
最近の研究はHTMLタグとテキスト領域を識別することでこの問題に対処し、後者はテーブル文書からテキストを抽出するために使われる。
しかし、これらの作業は、テキストを識別されたテキスト領域にマッピングする際に、誤った調整の問題に悩まされる。
本稿では,従来のテキスト領域予測とマッチングを,直接テキスト領域ポインティング問題に書き換える,TFLOPと呼ばれる新しいTSRフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.852619858744873
- License:
- Abstract: Table Structure Recognition (TSR) is a task aimed at converting table images into a machine-readable format (e.g. HTML), to facilitate other applications such as information retrieval. Recent works tackle this problem by identifying the HTML tags and text regions, where the latter is used for text extraction from the table document. These works however, suffer from misalignment issues when mapping text into the identified text regions. In this paper, we introduce a new TSR framework, called TFLOP (TSR Framework with LayOut Pointer mechanism), which reformulates the conventional text region prediction and matching into a direct text region pointing problem. Specifically, TFLOP utilizes text region information to identify both the table's structure tags and its aligned text regions, simultaneously. Without the need for region prediction and alignment, TFLOP circumvents the additional text region matching stage, which requires finely-calibrated post-processing. TFLOP also employs span-aware contrastive supervision to enhance the pointing mechanism in tables with complex structure. As a result, TFLOP achieves the state-of-the-art performance across multiple benchmarks such as PubTabNet, FinTabNet, and SynthTabNet. In our extensive experiments, TFLOP not only exhibits competitive performance but also shows promising results on industrial document TSR scenarios such as documents with watermarks or in non-English domain.
- Abstract(参考訳): テーブル構造認識(TSR)は、テーブルイメージを機械可読フォーマット(例えばHTML)に変換し、情報検索などの他のアプリケーションを容易にするタスクである。
最近の研究はHTMLタグとテキスト領域を識別することでこの問題に対処し、後者はテーブル文書からテキストを抽出するために使われる。
しかし、これらの作業は、テキストを識別されたテキスト領域にマッピングする際に、誤った調整の問題に悩まされる。
本稿では,従来のテキスト領域予測とマッチングを,直接テキスト領域ポインティング問題に変換するTFLOP (TSR Framework with LayOut Pointer mechanism) という新しいTSRフレームワークを提案する。
具体的には、TFLOPはテキスト領域情報を使用して、テーブルの構造タグとその整列したテキスト領域を同時に識別する。
領域予測とアライメントを必要とせずに、TFLOPは、微調整後処理を必要とする追加のテキスト領域マッチングステージを回避する。
TFLOPはまた、複雑な構造を持つテーブルのポインティングメカニズムを強化するために、スパンアウェアのコントラスト監視も採用している。
その結果、TFLOPはPubTabNet、FinTabNet、SynthTabNetといった複数のベンチマークで最先端のパフォーマンスを実現している。
我々の広範な実験では、TFLOPは競争性能を示すだけでなく、透かしのある文書や非英語ドメインのような産業文書のTSRシナリオにおいて有望な結果を示す。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - FETNet: Feature Erasing and Transferring Network for Scene Text Removal [14.763369952265796]
Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
論文 参考訳(メタデータ) (2023-06-16T02:38:30Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Text Spotting Transformers [29.970268691631333]
TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
本稿では、Bezier曲線とアノテーションの両方において、テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導検出プロセス(ボックス・トゥ・ポリゴン)を設計する。
論文 参考訳(メタデータ) (2022-04-05T01:05:31Z) - A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。
PERTはSTRタスクをいくつかの消去段階に分解する。
PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文 参考訳(メタデータ) (2021-06-24T14:06:06Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。