Fugu-MT 論文翻訳(概要): An End-to-End Multi-Task Learning Model for Image-based Table Recognition

論文の概要: An End-to-End Multi-Task Learning Model for Image-based Table Recognition

arxiv url: http://arxiv.org/abs/2303.08648v1
Date: Wed, 15 Mar 2023 14:24:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 13:32:48.106639
Title: An End-to-End Multi-Task Learning Model for Image-based Table Recognition
Title（参考訳）: 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデル
Authors: Nam Tuan Ly and Atsuhiro Takasu
Abstract要約: 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。提案モデルは1つの共有エンコーダと1つの共有デコーダと3つの独立したデコーダから構成される。システム全体を、エンドツーエンドのアプローチで簡単にトレーニングし、推論することができます。
参考スコア（独自算出の注目度）: 4.530704014707227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-based table recognition is a challenging task due to the diversity of table styles and the complexity of table structures. Most of the previous methods focus on a non-end-to-end approach which divides the problem into two separate sub-problems: table structure recognition; and cell-content recognition and then attempts to solve each sub-problem independently using two separate systems. In this paper, we propose an end-to-end multi-task learning model for image-based table recognition. The proposed model consists of one shared encoder, one shared decoder, and three separate decoders which are used for learning three sub-tasks of table recognition: table structure recognition, cell detection, and cell-content recognition. The whole system can be easily trained and inferred in an end-to-end approach. In the experiments, we evaluate the performance of the proposed model on two large-scale datasets: FinTabNet and PubTabNet. The experiment results show that the proposed model outperforms the state-of-the-art methods in all benchmark datasets.
Abstract（参考訳）: 画像に基づくテーブル認識は、テーブルスタイルの多様性とテーブル構造の複雑さのために難しい課題である。従来の手法のほとんどは、問題をテーブル構造認識とセルコンテント認識という2つの別々のサブプロブレムに分割する非エンドツーエンドのアプローチに焦点を合わせており、2つの別々のシステムを使って各サブプロブレムを独立して解決しようとする。本稿では,画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。提案モデルは、1つの共有エンコーダ、1つの共有デコーダ、3つの分離デコーダで構成され、テーブル構造認識、セル検出、セルコンテント認識の3つのサブタスクの学習に用いられる。システム全体を簡単に訓練し、エンドツーエンドのアプローチで推測することができる。実験では,FinTabNetとPubTabNetの2つの大規模データセットを用いて提案モデルの性能を評価する。実験結果から,提案モデルがすべてのベンチマークデータセットにおいて最先端の手法より優れていることが示された。

関連論文リスト

Hierarchical Modeling Approach to Fast and Accurate Table Recognition [0.47379911264912167]
テーブル認識は典型的には3つのサブタスク、すなわちテーブル構造、セル位置、セル内容認識から構成される。近年のモデルでは,マルチタスク学習,ローカルアテンション,相互学習の組み合わせにより,優れた認識が得られている。本稿では,非因果的注意を利用してテーブル構造全体をキャプチャする新しいマルチタスクモデルと,より高速なセルコンテンツ推論のための並列推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-12-24T09:58:30Z)
TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文参考訳（メタデータ） (2025-09-18T07:00:13Z)
Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文参考訳（メタデータ） (2025-01-11T12:19:20Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition [1.2328446298523066]
エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-04-20T04:30:38Z)
TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文参考訳（メタデータ） (2024-04-16T06:24:53Z)
Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文参考訳（メタデータ） (2023-03-30T03:09:25Z)
Multiview Representation Learning from Crowdsourced Triplet Comparisons [23.652378640389756]
トリプルト類似性比較は、クラウドソーシングタスクの一種である。群衆労働者は質問されます。 3つの物体の中でどの2つが似ていますか?
論文参考訳（メタデータ） (2023-02-08T10:51:44Z)
Cross-view Graph Contrastive Representation Learning on Partially Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文参考訳（メタデータ） (2022-11-08T09:19:32Z)
Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文参考訳（メタデータ） (2022-09-02T08:59:57Z)
TSK Fuzzy System Towards Few Labeled Incomplete Multi-View Data Classification [24.01191516774655]
これらの課題に対処するために,トランスダクティブ半教師付きマルチビューTSKファジィシステムモデリング法(SSIMV_TSK)を提案する。提案手法は,未知のビュー計算,ラベルなしデータの擬似ラベル学習,ファジィシステムモデリングをひとつのプロセスに統合し,解釈可能なファジィルールを持つモデルを生成する。実データを用いた実験の結果,提案手法は最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2021-10-08T11:41:06Z)
Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文参考訳（メタデータ） (2021-05-23T21:17:18Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。