論文の概要: Improving Table Structure Recognition with Visual-Alignment Sequential
Coordinate Modeling
- arxiv url: http://arxiv.org/abs/2303.06949v2
- Date: Mon, 20 Mar 2023 02:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:49:29.688425
- Title: Improving Table Structure Recognition with Visual-Alignment Sequential
Coordinate Modeling
- Title(参考訳): 視覚協調シーケンシャル座標モデリングによるテーブル構造認識の改善
- Authors: Yongshuai Huang, Ning Lu, Dapeng Chen, Yibo Li, Zecheng Xie, Shenggao
Zhu, Liangcai Gao, Wei Peng
- Abstract要約: VASTと呼ばれるテーブル構造認識のためのエンドツーエンドの逐次モデリングフレームワークを提案する。
空でない細胞の表現によって引き起こされる新しい座標配列デコーダを含む。
提案手法は, 論理的および物理的構造認識の両面において, 最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 20.571938462152293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table structure recognition aims to extract the logical and physical
structure of unstructured table images into a machine-readable format. The
latest end-to-end image-to-text approaches simultaneously predict the two
structures by two decoders, where the prediction of the physical structure (the
bounding boxes of the cells) is based on the representation of the logical
structure. However, the previous methods struggle with imprecise bounding boxes
as the logical representation lacks local visual information. To address this
issue, we propose an end-to-end sequential modeling framework for table
structure recognition called VAST. It contains a novel coordinate sequence
decoder triggered by the representation of the non-empty cell from the logical
structure decoder. In the coordinate sequence decoder, we model the bounding
box coordinates as a language sequence, where the left, top, right and bottom
coordinates are decoded sequentially to leverage the inter-coordinate
dependency. Furthermore, we propose an auxiliary visual-alignment loss to
enforce the logical representation of the non-empty cells to contain more local
visual details, which helps produce better cell bounding boxes. Extensive
experiments demonstrate that our proposed method can achieve state-of-the-art
results in both logical and physical structure recognition. The ablation study
also validates that the proposed coordinate sequence decoder and the
visual-alignment loss are the keys to the success of our method.
- Abstract(参考訳): テーブル構造認識は、非構造化テーブル画像の論理的および物理的構造を機械可読形式に抽出することを目的としている。
最新のエンドツーエンドのイメージ・ツー・テキスト・アプローチでは、2つのデコーダによって2つの構造を同時に予測し、物理構造の予測(セルの境界ボックス)は論理構造の表現に基づいて行われる。
しかし、論理表現は局所的な視覚情報を欠いているため、以前の手法は不正確な境界ボックスに苦しむ。
この問題に対処するために,VASTと呼ばれるテーブル構造認識のためのエンドツーエンドの逐次モデリングフレームワークを提案する。
論理構造デコーダからの空でないセルの表現によってトリガーされる新しい座標シーケンスデコーダを含む。
座標列デコーダでは、境界ボックス座標を言語列としてモデル化し、左、上、右、下の座標を逐次デコーダで復号し、座標間の依存性を利用する。
さらに、空でない細胞の論理的な表現を強制し、より局所的な視覚詳細を包含し、より優れた細胞結合ボックスを生み出す補助的な視覚調整損失を提案する。
広範な実験により,提案手法が論理構造認識と物理構造認識の両方において最先端の結果が得られることを示した。
アブレーション実験は,提案した座標列デコーダと視覚的アライメント損失が,本手法の成功の鍵であることを示す。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - AdaContour: Adaptive Contour Descriptor with Hierarchical Representation [52.381359663689004]
既存の角度ベースの輪郭記述子は、星以外の形状の損失表現に悩まされる。
AdaConは、他のディスクリプタよりも正確に形を表現できる。
論文 参考訳(メタデータ) (2024-04-12T07:30:24Z) - Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring [8.6134769826665]
セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T12:11:04Z) - Graph-to-Text Generation with Dynamic Structure Pruning [19.37474618180399]
入力グラフ表現条件を新たに生成したコンテキストに再エンコードする構造認識型クロスアテンション(SACA)機構を提案する。
LDC 2020T02 と ENT-DESC の2つのグラフ・トゥ・テキスト・データセットに対して,計算コストをわずかに増加させるだけで,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2022-09-15T12:48:10Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - R2D2: Relational Text Decoding with Transformers [18.137828323277347]
グラフ構造とそれらのノードとエッジに関連付けられた自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。
提案手法は,グラフィカル構造とテキストのシーケンシャルな性質の両方を利用する。
提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。
論文 参考訳(メタデータ) (2021-05-10T19:59:11Z) - node2coords: Graph Representation Learning with Wasserstein Barycenters [59.07120857271367]
グラフの表現学習アルゴリズムである node2coords を導入する。
低次元空間を同時に学習し、その空間内のノードを座標する。
実験の結果,node2coordで学習した表現は解釈可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-31T13:14:25Z) - Near-duplicate video detection featuring coupled temporal and perceptual
visual structures and logical inference based matching [0.0]
i) 時間的・知覚的な視覚的特徴を統合したインデックスとクエリシグネチャに基づく,ほぼ重複した映像検出のためのアーキテクチャを提案する。
そこで本研究では,N-gramスライディングウインドウプロセスと理論的に健全な格子構造を結合することで,論理的推論に基づく検索モデルをインスタンス化する手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T04:45:52Z) - LogicalFactChecker: Leveraging Logical Operations for Fact Checking with
Graph Module Network [111.24773949467567]
ファクトチェックに論理演算を活用するニューラルネットワークアプローチであるLogicalFactCheckerを提案する。
大規模なベンチマークデータセットであるTABFACT上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-04-28T17:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。