論文の概要: An End-to-End Multi-Task Learning Model for Image-based Table
Recognition
- arxiv url: http://arxiv.org/abs/2303.08648v1
- Date: Wed, 15 Mar 2023 14:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:32:48.106639
- Title: An End-to-End Multi-Task Learning Model for Image-based Table
Recognition
- Title(参考訳): 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデル
- Authors: Nam Tuan Ly and Atsuhiro Takasu
- Abstract要約: 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。
提案モデルは1つの共有エンコーダと1つの共有デコーダと3つの独立したデコーダから構成される。
システム全体を、エンドツーエンドのアプローチで簡単にトレーニングし、推論することができます。
- 参考スコア(独自算出の注目度): 4.530704014707227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based table recognition is a challenging task due to the diversity of
table styles and the complexity of table structures. Most of the previous
methods focus on a non-end-to-end approach which divides the problem into two
separate sub-problems: table structure recognition; and cell-content
recognition and then attempts to solve each sub-problem independently using two
separate systems. In this paper, we propose an end-to-end multi-task learning
model for image-based table recognition. The proposed model consists of one
shared encoder, one shared decoder, and three separate decoders which are used
for learning three sub-tasks of table recognition: table structure recognition,
cell detection, and cell-content recognition. The whole system can be easily
trained and inferred in an end-to-end approach. In the experiments, we evaluate
the performance of the proposed model on two large-scale datasets: FinTabNet
and PubTabNet. The experiment results show that the proposed model outperforms
the state-of-the-art methods in all benchmark datasets.
- Abstract(参考訳): 画像に基づくテーブル認識は、テーブルスタイルの多様性とテーブル構造の複雑さのために難しい課題である。
従来の手法のほとんどは、問題をテーブル構造認識とセルコンテント認識という2つの別々のサブプロブレムに分割する非エンドツーエンドのアプローチに焦点を合わせており、2つの別々のシステムを使って各サブプロブレムを独立して解決しようとする。
本稿では,画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。
提案モデルは、1つの共有エンコーダ、1つの共有デコーダ、3つの分離デコーダで構成され、テーブル構造認識、セル検出、セルコンテント認識の3つのサブタスクの学習に用いられる。
システム全体を簡単に訓練し、エンドツーエンドのアプローチで推測することができる。
実験では,FinTabNetとPubTabNetの2つの大規模データセットを用いて提案モデルの性能を評価する。
実験結果から,提案モデルがすべてのベンチマークデータセットにおいて最先端の手法より優れていることが示された。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition [1.2328446298523066]
エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-20T04:30:38Z) - TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文 参考訳(メタデータ) (2024-04-16T06:24:53Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Multiview Representation Learning from Crowdsourced Triplet Comparisons [23.652378640389756]
トリプルト類似性比較は、クラウドソーシングタスクの一種である。
群衆労働者は質問されます。
3つの物体の中で どの2つが似ていますか?
論文 参考訳(メタデータ) (2023-02-08T10:51:44Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - TSK Fuzzy System Towards Few Labeled Incomplete Multi-View Data
Classification [24.01191516774655]
これらの課題に対処するために,トランスダクティブ半教師付きマルチビューTSKファジィシステムモデリング法(SSIMV_TSK)を提案する。
提案手法は,未知のビュー計算,ラベルなしデータの擬似ラベル学習,ファジィシステムモデリングをひとつのプロセスに統合し,解釈可能なファジィルールを持つモデルを生成する。
実データを用いた実験の結果,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-08T11:41:06Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。