論文の概要: TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment
- arxiv url: http://arxiv.org/abs/2603.22819v1
- Date: Tue, 24 Mar 2026 05:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.321467
- Title: TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment
- Title(参考訳): TDATR: テーブル詳細学習とセルレベル視覚アライメントによるエンドツーエンドテーブル認識の改善
- Authors: Chunxia Qin, Chenyu Liu, Pengcheng Xia, Jun Du, Baocai Yin, Bing Yin, Cong Liu,
- Abstract要約: TDATR(Table Detail-Aware Table Recognition)は、テーブルの詳細学習とセルレベルの視覚アライメントにより、エンドツーエンドのTRを改善する。
データセット固有の微調整なしで、7つのベンチマークで最先端または高い競争性能を達成する。
- 参考スコア(独自算出の注目度): 70.83664203825235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables are pervasive in diverse documents, making table recognition (TR) a fundamental task in document analysis. Existing modular TR pipelines separately model table structure and content, leading to suboptimal integration and complex workflows. End-to-end approaches rely heavily on large-scale TR data and struggle in data-constrained scenarios. To address these issues, we propose TDATR (Table Detail-Aware Table Recognition) improves end-to-end TR through table detail-aware learning and cell-level visual alignment. TDATR adopts a ``perceive-then-fuse'' strategy. The model first performs table detail-aware learning to jointly perceive table structure and content through multiple structure understanding and content recognition tasks designed under a language modeling paradigm. These tasks can naturally leverage document data from diverse scenarios to enhance model robustness. The model then integrates implicit table details to generate structured HTML outputs, enabling more efficient TR modeling when trained with limited data. Furthermore, we design a structure-guided cell localization module integrated into the end-to-end TR framework, which efficiently locates cell and strengthens vision-language alignment. It enhances the interpretability and accuracy of TR. We achieve state-of-the-art or highly competitive performance on seven benchmarks without dataset-specific fine-tuning.
- Abstract(参考訳): 表は多種多様な文書に広く浸透しており、表認識(TR)は文書分析の基本的な課題となっている。
既存のモジュールTRパイプラインは、テーブル構造とコンテントを別々にモデル化する。
エンドツーエンドのアプローチは、大規模なTRデータに大きく依存し、データ制約のあるシナリオで苦労する。
これらの課題に対処するため,TDATR (Table Detail-Aware Table Recognition) は,テーブルの詳細学習とセルレベルの視覚的アライメントにより,エンドツーエンドのTRを改善する。
TDATRは `Perceive-then-fuse'' 戦略を採用している。
このモデルはまず,言語モデリングパラダイムの下で設計された複数の構造理解およびコンテンツ認識タスクを通じて,テーブル構造とコンテンツを協調的に知覚するテーブル詳細学習を実行する。
これらのタスクは、さまざまなシナリオからのドキュメントデータを自然に活用して、モデルの堅牢性を高めることができる。
モデルは暗黙のテーブルの詳細を統合して構造化されたHTML出力を生成し、限られたデータでトレーニングされた時により効率的なTRモデリングを可能にする。
さらに,エンド・ツー・エンドのTRフレームワークに統合された構造誘導型セルローカライゼーションモジュールを設計し,セルの効率的な位置同定と視覚言語アライメントの強化を行う。
これによりTRの解釈性と精度が向上する。
データセット固有の微調整なしで、7つのベンチマークで最先端または高い競争性能を達成する。
関連論文リスト
- TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition [54.85932472676512]
テーブル認識(TR)は、テーブルイメージをHTMLやマークダウンなどの半構造化表現に変換することを目的としている。
我々は、事前学習された視覚言語モデルで、ラベルのないテーブルイメージから直接TRを学習できる自己教師型微調整手法であるTRiviaを紹介する。
我々は,既存のシステムを超越した,オープンソースでコンパクトで最先端のTRモデルであるTRivia-3Bを提案する。
論文 参考訳(メタデータ) (2025-12-01T03:49:00Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - From Surface to Semantics: Semantic Structure Parsing for Table-Centric Document Analysis [9.526986293067576]
DOTABLERはテーブル中心のセマンティックドキュメント解析フレームワークである。
包括的テーブルアンカレッド意味解析と意味論的関連テーブルの正確な抽出を提供する。
実世界のPDFから1000以上のテーブルを持つ4000ページ近くで評価された。
論文 参考訳(メタデータ) (2025-08-14T03:29:51Z) - RAPTOR: Refined Approach for Product Table Object Recognition [0.1516287840715525]
本研究は,テーブル抽出を改善するための最先端モデルを強化するために設計されたモジュール式後処理システムであるRAPTORを紹介する。
RAPTORは、TD(recurrent Table Detection)とTSR(Table Structure Recognition)の問題に対処し、両方の精度構造予測を改善した。
その結果、私たちのアプローチは製品表に優れていますが、様々なテーブル形式にまたがって適切なパフォーマンスを維持しています。
論文 参考訳(メタデータ) (2025-02-19T13:59:06Z) - UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - UniTable: Towards a Unified Framework for Table Recognition via Self-Supervised Pretraining [22.031699293366486]
テーブル認識のトレーニングパラダイムとトレーニング目標を統合するためのトレーニングフレームワークであるUniTableを提案する。
本フレームワークは,3つのTRタスクの学習目標を,タスク非依存の訓練目標である言語モデリングに統一する。
UniTableのテーブル解析機能は、既存のTRメソッドと一般的な視覚言語モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-03-07T15:44:50Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。