論文の概要: PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction
- arxiv url: http://arxiv.org/abs/2512.10888v1
- Date: Thu, 11 Dec 2025 18:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.512565
- Title: PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction
- Title(参考訳): PubTables-v2: フルページおよびマルチページテーブル抽出のための新しい大規模データセット
- Authors: Brandon Smock, Valerie Faucon-Morin, Max Sokolov, Libin Liang, Tayyibah Khanam, Maury Courtland,
- Abstract要約: 表抽出は、視覚的文書理解において重要な課題である。
PubTables-v2は、マルチページテーブル構造認識のための最初の大規模ベンチマークである。
我々はPubTables-v2を使用して、ページレベルのTEを網羅するTable Transformerのイメージ・ツー・グラフ拡張であるPage-Object Table Transformer(POTATR)を作成します。
- 参考スコア(独自算出の注目度): 1.2554129265335303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table extraction (TE) is a key challenge in visual document understanding. Traditional approaches detect tables first, then recognize their structure. Recently, interest has surged in developing methods, such as vision-language models (VLMs), that can extract tables directly in their full page or document context. However, progress has been difficult to demonstrate due to a lack of annotated data. To address this, we create a new large-scale dataset, PubTables-v2. PubTables-v2 supports a number of current challenging table extraction tasks. Notably, it is the first large-scale benchmark for multi-page table structure recognition. We demonstrate its usefulness by evaluating domain-specialized VLMs on these tasks and highlighting current progress. Finally, we use PubTables-v2 to create the Page-Object Table Transformer (POTATR), an image-to-graph extension of the Table Transformer to comprehensive page-level TE. Data, code, and trained models will be released.
- Abstract(参考訳): 表抽出(TE)は、視覚文書理解において重要な課題である。
従来のアプローチはまずテーブルを検出し、その構造を認識します。
近年,視覚言語モデル (VLM) のような,全ページや文書コンテキストで直接テーブルを抽出する手法の開発への関心が高まっている。
しかし、注釈付きデータがないため、進歩を示すのは難しい。
これを解決するために、我々は新しい大規模データセットPubTables-v2を作成しました。
PubTables-v2は、現在の挑戦的なテーブル抽出タスクをサポートする。
特に、マルチページテーブル構造認識のための最初の大規模ベンチマークである。
本研究は,これらの課題におけるドメイン特化VLMの評価と現状の進展を明らかにすることで,その有用性を示す。
最後に、PubTables-v2を使ってPage-Object Table Transformer(POTATR)を作成します。
データ、コード、トレーニングされたモデルがリリースされる。
関連論文リスト
- TABLET: A Large-Scale Dataset for Robust Visual Table Understanding [46.96642907587549]
既存のビジュアルテーブル理解(VTU)データセットは、単一の視覚化と事前定義された命令を備えた固定例を提供する。
20タスクにわたる400万のサンプルを備えた大規模なVTUデータセットであるTABLETを紹介した。
論文 参考訳(メタデータ) (2025-09-25T14:14:27Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。