論文の概要: LGPMA: Complicated Table Structure Recognition with Local and Global
Pyramid Mask Alignment
- arxiv url: http://arxiv.org/abs/2105.06224v1
- Date: Thu, 13 May 2021 12:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:57:36.103535
- Title: LGPMA: Complicated Table Structure Recognition with Local and Global
Pyramid Mask Alignment
- Title(参考訳): LGPMA: 局所およびグローバルピラミッドマスクアライメントを用いたテーブル構造認識
- Authors: Liang Qiao and Zaisheng Li and Zhanzhan Cheng and Peng Zhang and
Shiliang Pu and Yi Niu and Wenqi Ren and Wenming Tan and Fei Wu
- Abstract要約: テーブル構造認識は、様々な構造と複雑な細胞間関係のために難しい課題である。
本研究では,局所・グローバルな特徴マップにソフトピラミッドマスク学習機構を採用した局所・グローバルピラミッドマスクアライメントの枠組みを提案する。
その後、ピラミッドマスク再記録モジュールが統合され、ローカルおよびグローバル情報を妥協し、予測される境界を洗練します。
- 参考スコア(独自算出の注目度): 54.768354427967296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Table structure recognition is a challenging task due to the various
structures and complicated cell spanning relations. Previous methods handled
the problem starting from elements in different granularities (rows/columns,
text regions), which somehow fell into the issues like lossy heuristic rules or
neglect of empty cell division. Based on table structure characteristics, we
find that obtaining the aligned bounding boxes of text region can effectively
maintain the entire relevant range of different cells. However, the aligned
bounding boxes are hard to be accurately predicted due to the visual
ambiguities. In this paper, we aim to obtain more reliable aligned bounding
boxes by fully utilizing the visual information from both text regions in
proposed local features and cell relations in global features. Specifically, we
propose the framework of Local and Global Pyramid Mask Alignment, which adopts
the soft pyramid mask learning mechanism in both the local and global feature
maps. It allows the predicted boundaries of bounding boxes to break through the
limitation of original proposals. A pyramid mask re-scoring module is then
integrated to compromise the local and global information and refine the
predicted boundaries. Finally, we propose a robust table structure recovery
pipeline to obtain the final structure, in which we also effectively solve the
problems of empty cells locating and division. Experimental results show that
the proposed method achieves competitive and even new state-of-the-art
performance on several public benchmarks.
- Abstract(参考訳): テーブル構造認識は、様々な構造と複雑な細胞間関係のために難しい課題である。
それまでの方法では、異なる粒度の要素(バラやコラム、テキスト領域)から始まる問題に対処していましたが、それは何らかの形で、ヒューリスティックなルールの喪失や、空の細胞分裂の無視といった問題に陥りました。
表構造特性に基づいて,テキスト領域のアラインドバウンディングボックスを取得することで,関連するセルの範囲全体を効果的に維持できることがわかった。
しかし,視覚のあいまいさから,アライメントされた境界ボックスを正確に予測することは困難である。
本稿では,提案するローカル特徴とグローバル特徴のセル関係の両テキスト領域からの視覚情報を完全に活用して,より信頼性の高いアライメント境界ボックスを実現することを目的とする。
具体的には、局所的およびグローバル的ピラミッドマスクアライメントの枠組みを提案し、局所的およびグローバル的特徴マップにソフトピラミッドマスク学習機構を採用する。
これにより、予測される境界ボックスの境界は、元の提案の制限を突破することができる。
その後、ピラミッドマスクの再装飾モジュールが統合され、ローカルおよびグローバル情報を侵害し、予測された境界を洗練する。
最後に, 最終構造を得るための頑健なテーブル構造回復パイプラインを提案し, 空のセルの位置と分割の問題を効果的に解決する。
実験結果から,提案手法は,いくつかの公開ベンチマークにおいて,競争力および新たな最先端性能を実現することが示された。
関連論文リスト
- Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - BLADE: Box-Level Supervised Amodal Segmentation through Directed
Expansion [10.57956193654977]
Boxレベルの教師付きアモーダルセグメンテーションは、この課題に対処する。
可視マスクから対応するアモーダルマスクへの指向性拡張アプローチを導入することで,新しい解を提案する。
このアプローチでは、オーバーラップする領域 – 異なるインスタンスが交わる領域 – に基づいた、ハイブリッドなエンドツーエンドネットワークが関係しています。
論文 参考訳(メタデータ) (2024-01-03T09:37:03Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - Visual Understanding of Complex Table Structures from Document Images [32.95187519339354]
本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。
また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
論文 参考訳(メタデータ) (2021-11-13T14:54:33Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。
特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。
提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文 参考訳(メタデータ) (2020-06-18T20:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。