論文の概要: UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining
- arxiv url: http://arxiv.org/abs/2403.04822v1
- Date: Thu, 7 Mar 2024 15:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:54:03.767804
- Title: UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining
- Title(参考訳): UniTable: 自己監督型事前学習によるテーブル構造認識のための統一フレームワーク
- Authors: ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari
Balasubramaniyan, Duen Horng Chau
- Abstract要約: テーブル構造認識(TSR)のトレーニングパラダイムとトレーニング目標を一体化するトレーニングフレームワークUniTableを提案する。
本フレームワークは、テーブル構造、セル内容、セル境界ボックス(bbox)を抽出する3つのTSRタスクの学習目標を、タスク非依存の訓練目標である言語モデリングに統一する。
- 参考スコア(独自算出の注目度): 25.04573593082671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables convey factual and quantitative data with implicit conventions created
by humans that are often challenging for machines to parse. Prior work on table
structure recognition (TSR) has mainly centered around complex task-specific
combinations of available inputs and tools. We present UniTable, a training
framework that unifies both the training paradigm and training objective of
TSR. Its training paradigm combines the simplicity of purely pixel-level inputs
with the effectiveness and scalability empowered by self-supervised pretraining
(SSP) from diverse unannotated tabular images. Our framework unifies the
training objectives of all three TSR tasks - extracting table structure, cell
content, and cell bounding box (bbox) - into a unified task-agnostic training
objective: language modeling. Extensive quantitative and qualitative analyses
highlight UniTable's state-of-the-art (SOTA) performance on four of the largest
TSR datasets. To promote reproducible research, enhance transparency, and SOTA
innovations, we open-source our code at https://github.com/poloclub/unitable
and release the first-of-its-kind Jupyter Notebook of the whole inference
pipeline, fine-tuned across multiple TSR datasets, supporting all three TSR
tasks.
- Abstract(参考訳): テーブルは、機械が解析することがしばしば困難である人間の暗黙の規則で、事実と量的なデータを伝達する。
テーブル構造認識(TSR)の研究は、主に利用可能な入力とツールの複雑なタスク固有の組み合わせに焦点を当てている。
本稿では,tsrのトレーニングパラダイムとトレーニング目標の両方を統合するトレーニングフレームワークであるunitableを提案する。
そのトレーニングパラダイムは、純粋にピクセルレベルの入力の単純さと、さまざまな未注釈の表画像からの自己教師付き事前学習(SSP)によって強化された有効性とスケーラビリティを組み合わせる。
本フレームワークは、テーブル構造、セルコンテンツ、セルバウンディングボックス(bbox)を抽出する3つのTSRタスクのトレーニング目標を、タスク非依存のトレーニング目標である言語モデリングに統一する。
大規模で質的な分析では、最大のTSRデータセットの4つでUniTableのSOTA(State-of-the-art)のパフォーマンスを強調している。
再現可能な研究を促進し、透明性を高め、SOTAのイノベーションを促進するため、私たちはhttps://github.com/poloclub/unitableでコードをオープンソース化し、3つのTSRタスクすべてをサポートする複数のTSRデータセットを微調整した、推論パイプライン全体の最初のJupyter Notebookをリリースしました。
関連論文リスト
- Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning [52.08794743921141]
本稿では,テーブルタスクに特化して設計された自己学習ファインチューニングパラダイムとして,テーブル-LLM-スペシャリスト(Table-LLM-Specialist,略してテーブル-スペシャリスト)を提案する。
論文 参考訳(メタデータ) (2024-10-16T02:04:17Z) - TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Large Language Models are Complex Table Parsers [26.66460264175336]
本稿では,複合表QAの課題に対処するため,GPT-3.5を導入することを提案する。
具体的には、各セルの階層構造、位置情報、およびコンテンツをデータセットとしてエンコードする。
本研究では,各タスクの意味の説明的記述によるプロンプトテンプレートの強化により,階層的認識構造能力を効果的に向上する。
論文 参考訳(メタデータ) (2023-12-13T01:34:42Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。