論文の概要: Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition
- arxiv url: http://arxiv.org/abs/2404.13268v1
- Date: Sat, 20 Apr 2024 04:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:49:10.297392
- Title: Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition
- Title(参考訳): 表構造と文字認識のためのマルチセルデコーダと相互学習
- Authors: Takaya Kawakatsu,
- Abstract要約: エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 1.2328446298523066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting table contents from documents such as scientific papers and financial reports and converting them into a format that can be processed by large language models is an important task in knowledge information processing. End-to-end approaches, which recognize not only table structure but also cell contents, achieved performance comparable to state-of-the-art models using external character recognition systems, and have potential for further improvements. In addition, these models can now recognize long tables with hundreds of cells by introducing local attention. However, the models recognize table structure in one direction from the header to the footer, and cell content recognition is performed independently for each cell, so there is no opportunity to retrieve useful information from the neighbor cells. In this paper, we propose a multi-cell content decoder and bidirectional mutual learning mechanism to improve the end-to-end approach. The effectiveness is demonstrated on two large datasets, and the experimental results show comparable performance to state-of-the-art models, even for long tables with large numbers of cells.
- Abstract(参考訳): 学術論文や財務報告などの文書から表の内容を取り出し,それを大規模言語モデルで処理可能な形式に変換することは,知識情報処理において重要な課題である。
テーブル構造だけでなくセル内容も認識するエンドツーエンドアプローチは、外部文字認識システムを用いた最先端モデルに匹敵する性能を達成し、さらなる改善の可能性を秘めている。
さらに、これらのモデルでは、数百セルの長いテーブルを局所的な注意を払って認識できるようになった。
しかし、モデルでは、ヘッダーからフッタへの1方向のテーブル構造を認識し、各セルごとにセル内容の認識を行うため、近隣セルから有用な情報を検索する機会はない。
本稿では,エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は、多数のセルを持つ長いテーブルであっても、最先端のモデルに匹敵する性能を示す。
関連論文リスト
- UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - An End-to-End Multi-Task Learning Model for Image-based Table
Recognition [4.530704014707227]
画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。
提案モデルは1つの共有エンコーダと1つの共有デコーダと3つの独立したデコーダから構成される。
システム全体を、エンドツーエンドのアプローチで簡単にトレーニングし、推論することができます。
論文 参考訳(メタデータ) (2023-03-15T14:24:01Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - Visual Understanding of Complex Table Structures from Document Images [32.95187519339354]
本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。
また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
論文 参考訳(メタデータ) (2021-11-13T14:54:33Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。