Fugu-MT 論文翻訳(概要): Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition

論文の概要: Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition

arxiv url: http://arxiv.org/abs/2404.13268v1
Date: Sat, 20 Apr 2024 04:30:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 19:49:10.297392
Title: Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition
Title（参考訳）: 表構造と文字認識のためのマルチセルデコーダと相互学習
Authors: Takaya Kawakatsu,
Abstract要約: エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
参考スコア（独自算出の注目度）: 1.2328446298523066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extracting table contents from documents such as scientific papers and financial reports and converting them into a format that can be processed by large language models is an important task in knowledge information processing. End-to-end approaches, which recognize not only table structure but also cell contents, achieved performance comparable to state-of-the-art models using external character recognition systems, and have potential for further improvements. In addition, these models can now recognize long tables with hundreds of cells by introducing local attention. However, the models recognize table structure in one direction from the header to the footer, and cell content recognition is performed independently for each cell, so there is no opportunity to retrieve useful information from the neighbor cells. In this paper, we propose a multi-cell content decoder and bidirectional mutual learning mechanism to improve the end-to-end approach. The effectiveness is demonstrated on two large datasets, and the experimental results show comparable performance to state-of-the-art models, even for long tables with large numbers of cells.
Abstract（参考訳）: 学術論文や財務報告などの文書から表の内容を取り出し,それを大規模言語モデルで処理可能な形式に変換することは,知識情報処理において重要な課題である。テーブル構造だけでなくセル内容も認識するエンドツーエンドアプローチは、外部文字認識システムを用いた最先端モデルに匹敵する性能を達成し、さらなる改善の可能性を秘めている。さらに、これらのモデルでは、数百セルの長いテーブルを局所的な注意を払って認識できるようになった。しかし、モデルでは、ヘッダーからフッタへの1方向のテーブル構造を認識し、各セルごとにセル内容の認識を行うため、近隣セルから有用な情報を検索する機会はない。本稿では,エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。この効果は2つの大きなデータセットで実証され、実験結果は、多数のセルを持つ長いテーブルであっても、最先端のモデルに匹敵する性能を示す。

関連論文リスト

How Do Language Models Understand Tables? A Mechanistic Analysis of Cell Location [53.68149869349268]
細胞位置の原子的タスクを分離することにより,テーブル理解の過程を解明する。モデルは、座標を解くために離散をカウントする順序機構を介して標的セルを特定することを実証する。我々は,原子配置中に同定された同一のアテンションヘッドを多重化することにより,モデルがマルチセル位置タスクに一般化できることを明らかにする。
論文参考訳（メタデータ） (2026-02-09T11:47:34Z)
Hierarchical Modeling Approach to Fast and Accurate Table Recognition [0.47379911264912167]
テーブル認識は典型的には3つのサブタスク、すなわちテーブル構造、セル位置、セル内容認識から構成される。近年のモデルでは,マルチタスク学習,ローカルアテンション,相互学習の組み合わせにより,優れた認識が得られている。本稿では,非因果的注意を利用してテーブル構造全体をキャプチャする新しいマルチタスクモデルと,より高速なセルコンテンツ推論のための並列推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-12-24T09:58:30Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。 UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文参考訳（メタデータ） (2024-09-20T01:26:32Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文参考訳（メタデータ） (2024-02-20T11:50:27Z)
An End-to-End Multi-Task Learning Model for Image-based Table Recognition [4.530704014707227]
画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。提案モデルは1つの共有エンコーダと1つの共有デコーダと3つの独立したデコーダから構成される。システム全体を、エンドツーエンドのアプローチで簡単にトレーニングし、推論することができます。
論文参考訳（メタデータ） (2023-03-15T14:24:01Z)
TRUST: An Accurate and End-to-End Table structure Recognizer Using Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2022-08-31T08:33:36Z)
Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文参考訳（メタデータ） (2022-03-08T02:44:58Z)
Visual Understanding of Complex Table Structures from Document Images [32.95187519339354]
本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
論文参考訳（メタデータ） (2021-11-13T14:54:33Z)
Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。 SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文参考訳（メタデータ） (2021-07-12T06:26:19Z)
TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文参考訳（メタデータ） (2021-06-20T01:57:05Z)
TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文参考訳（メタデータ） (2021-02-17T02:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。