論文の概要: Hierarchical Modeling Approach to Fast and Accurate Table Recognition
- arxiv url: http://arxiv.org/abs/2512.21083v1
- Date: Wed, 24 Dec 2025 09:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.754757
- Title: Hierarchical Modeling Approach to Fast and Accurate Table Recognition
- Title(参考訳): 高速かつ高精度なテーブル認識のための階層的モデリング手法
- Authors: Takaya Kawakatsu,
- Abstract要約: テーブル認識は典型的には3つのサブタスク、すなわちテーブル構造、セル位置、セル内容認識から構成される。
近年のモデルでは,マルチタスク学習,ローカルアテンション,相互学習の組み合わせにより,優れた認識が得られている。
本稿では,非因果的注意を利用してテーブル構造全体をキャプチャする新しいマルチタスクモデルと,より高速なセルコンテンツ推論のための並列推論アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.47379911264912167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction and use of diverse knowledge from numerous documents is a pressing challenge in intelligent information retrieval. Documents contain elements that require different recognition methods. Table recognition typically consists of three subtasks, namely table structure, cell position and cell content recognition. Recent models have achieved excellent recognition with a combination of multi-task learning, local attention, and mutual learning. However, their effectiveness has not been fully explained, and they require a long period of time for inference. This paper presents a novel multi-task model that utilizes non-causal attention to capture the entire table structure, and a parallel inference algorithm for faster cell content inference. The superiority is demonstrated both visually and statistically on two large public datasets.
- Abstract(参考訳): 多くの文書からの多様な知識の抽出と利用は、知的情報検索における重要な課題である。
文書には、異なる認識方法を必要とする要素が含まれている。
テーブル認識は典型的には3つのサブタスク、すなわちテーブル構造、セル位置、セル内容認識から構成される。
近年のモデルでは,マルチタスク学習,ローカルアテンション,相互学習の組み合わせにより,優れた認識が得られている。
しかし、それらの効果は十分に説明されておらず、推論に長い時間を要する。
本稿では,非因果的注意を利用してテーブル構造全体をキャプチャする新しいマルチタスクモデルと,より高速なセルコンテンツ推論のための並列推論アルゴリズムを提案する。
この優位性は、視覚的および統計的に2つの大きな公開データセットで示される。
関連論文リスト
- RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition [1.2328446298523066]
エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-20T04:30:38Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - An End-to-End Multi-Task Learning Model for Image-based Table
Recognition [4.530704014707227]
画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。
提案モデルは1つの共有エンコーダと1つの共有デコーダと3つの独立したデコーダから構成される。
システム全体を、エンドツーエンドのアプローチで簡単にトレーニングし、推論することができます。
論文 参考訳(メタデータ) (2023-03-15T14:24:01Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。