論文の概要: Visual Understanding of Complex Table Structures from Document Images
- arxiv url: http://arxiv.org/abs/2111.07129v1
- Date: Sat, 13 Nov 2021 14:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 13:04:30.045870
- Title: Visual Understanding of Complex Table Structures from Document Images
- Title(参考訳): 文書画像からの複雑な表構造の視覚的理解
- Authors: Sachin Raja, Ajoy Mondal, and C V Jawahar
- Abstract要約: 本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。
また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
- 参考スコア(独自算出の注目度): 32.95187519339354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table structure recognition is necessary for a comprehensive understanding of
documents. Tables in unstructured business documents are tough to parse due to
the high diversity of layouts, varying alignments of contents, and the presence
of empty cells. The problem is particularly difficult because of challenges in
identifying individual cells using visual or linguistic contexts or both.
Accurate detection of table cells (including empty cells) simplifies structure
extraction and hence, it becomes the prime focus of our work. We propose a
novel object-detection-based deep model that captures the inherent alignments
of cells within tables and is fine-tuned for fast optimization. Despite
accurate detection of cells, recognizing structures for dense tables may still
be challenging because of difficulties in capturing long-range row/column
dependencies in presence of multi-row/column spanning cells. Therefore, we also
aim to improve structure recognition by deducing a novel rectilinear
graph-based formulation. From a semantics perspective, we highlight the
significance of empty cells in a table. To take these cells into account, we
suggest an enhancement to a popular evaluation criterion. Finally, we introduce
a modestly sized evaluation dataset with an annotation style inspired by human
cognition to encourage new approaches to the problem. Our framework improves
the previous state-of-the-art performance by a 2.7% average F1-score on
benchmark datasets.
- Abstract(参考訳): 文書の包括的理解には表構造認識が必要である。
非構造化ビジネスドキュメントのテーブルは、レイアウトの多様性、コンテンツのアライメントの相違、空のセルの存在などにより、解析が困難である。
この問題は、視覚的または言語的文脈または両方を用いて個々の細胞を特定することの難しさのため、特に難しい。
テーブル細胞(空の細胞を含む)の正確な検出は構造抽出を単純化し、これが我々の研究の焦点となる。
本稿では,テーブル内のセル固有のアライメントを抽出し,高速な最適化を実現するオブジェクト検出に基づく新しいディープモデルを提案する。
細胞を正確に検出しているにもかかわらず、多列/カラムスパンニング細胞の存在下での長距離行/カラム依存性の捕捉が困難であるため、高密度テーブルの構造を認識することは依然として困難である。
そこで我々は,新しい線形グラフに基づく定式化による構造認識の向上も目指している。
セマンティクスの観点からは、テーブル内の空のセルの重要性を強調する。
これらの細胞を考慮に入れた上で,評価基準の強化を提案する。
最後に,人間の認識にインスパイアされたアノテーション型評価データセットを導入し,この問題に対する新たなアプローチを提案する。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
関連論文リスト
- Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition [1.2328446298523066]
エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-20T04:30:38Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Table Structure Recognition using Top-Down and Bottom-Up Cues [28.65687982486627]
本稿では,細胞検出と相互作用モジュールを組み合わせたテーブル構造認識手法を提案する。
実際に利用可能な実世界のデータセット上で,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2020-10-09T13:32:53Z) - Global Table Extractor (GTE): A Framework for Joint Table Identification
and Cell Structure Recognition Using Visual Context [11.99452212008243]
本稿では,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークを提案する。
GTE-Tableでは、テーブルネットワークをトレーニングするために、テーブルの自然セル封じ込め制約に基づく新たなペナルティを発明する。
これを使って、セルラベルでPubTabNetを強化し、FinTabNet、実世界の複雑な科学的および財務的なデータセットを作成します。
論文 参考訳(メタデータ) (2020-05-01T20:14:49Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。