論文の概要: An End-to-End Multi-Task Learning Model for Image-based Table
Recognition
- arxiv url: http://arxiv.org/abs/2303.08648v1
- Date: Wed, 15 Mar 2023 14:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:32:48.106639
- Title: An End-to-End Multi-Task Learning Model for Image-based Table
Recognition
- Title(参考訳): 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデル
- Authors: Nam Tuan Ly and Atsuhiro Takasu
- Abstract要約: 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。
提案モデルは1つの共有エンコーダと1つの共有デコーダと3つの独立したデコーダから構成される。
システム全体を、エンドツーエンドのアプローチで簡単にトレーニングし、推論することができます。
- 参考スコア(独自算出の注目度): 4.530704014707227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based table recognition is a challenging task due to the diversity of
table styles and the complexity of table structures. Most of the previous
methods focus on a non-end-to-end approach which divides the problem into two
separate sub-problems: table structure recognition; and cell-content
recognition and then attempts to solve each sub-problem independently using two
separate systems. In this paper, we propose an end-to-end multi-task learning
model for image-based table recognition. The proposed model consists of one
shared encoder, one shared decoder, and three separate decoders which are used
for learning three sub-tasks of table recognition: table structure recognition,
cell detection, and cell-content recognition. The whole system can be easily
trained and inferred in an end-to-end approach. In the experiments, we evaluate
the performance of the proposed model on two large-scale datasets: FinTabNet
and PubTabNet. The experiment results show that the proposed model outperforms
the state-of-the-art methods in all benchmark datasets.
- Abstract(参考訳): 画像に基づくテーブル認識は、テーブルスタイルの多様性とテーブル構造の複雑さのために難しい課題である。
従来の手法のほとんどは、問題をテーブル構造認識とセルコンテント認識という2つの別々のサブプロブレムに分割する非エンドツーエンドのアプローチに焦点を合わせており、2つの別々のシステムを使って各サブプロブレムを独立して解決しようとする。
本稿では,画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。
提案モデルは、1つの共有エンコーダ、1つの共有デコーダ、3つの分離デコーダで構成され、テーブル構造認識、セル検出、セルコンテント認識の3つのサブタスクの学習に用いられる。
システム全体を簡単に訓練し、エンドツーエンドのアプローチで推測することができる。
実験では,FinTabNetとPubTabNetの2つの大規模データセットを用いて提案モデルの性能を評価する。
実験結果から,提案モデルがすべてのベンチマークデータセットにおいて最先端の手法より優れていることが示された。
関連論文リスト
- Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Reliable Representations for Incomplete Multi-View Partial
Multi-Label Classification [65.95823612309356]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Multiview Representation Learning from Crowdsourced Triplet Comparisons [23.652378640389756]
トリプルト類似性比較は、クラウドソーシングタスクの一種である。
群衆労働者は質問されます。
3つの物体の中で どの2つが似ていますか?
論文 参考訳(メタデータ) (2023-02-08T10:51:44Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - TSK Fuzzy System Towards Few Labeled Incomplete Multi-View Data
Classification [24.01191516774655]
これらの課題に対処するために,トランスダクティブ半教師付きマルチビューTSKファジィシステムモデリング法(SSIMV_TSK)を提案する。
提案手法は,未知のビュー計算,ラベルなしデータの擬似ラベル学習,ファジィシステムモデリングをひとつのプロセスに統合し,解釈可能なファジィルールを持つモデルを生成する。
実データを用いた実験の結果,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-08T11:41:06Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。