論文の概要: UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining
- arxiv url: http://arxiv.org/abs/2403.04822v1
- Date: Thu, 7 Mar 2024 15:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:54:03.767804
- Title: UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining
- Title(参考訳): UniTable: 自己監督型事前学習によるテーブル構造認識のための統一フレームワーク
- Authors: ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari
Balasubramaniyan, Duen Horng Chau
- Abstract要約: テーブル構造認識(TSR)のトレーニングパラダイムとトレーニング目標を一体化するトレーニングフレームワークUniTableを提案する。
本フレームワークは、テーブル構造、セル内容、セル境界ボックス(bbox)を抽出する3つのTSRタスクの学習目標を、タスク非依存の訓練目標である言語モデリングに統一する。
- 参考スコア(独自算出の注目度): 25.04573593082671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables convey factual and quantitative data with implicit conventions created
by humans that are often challenging for machines to parse. Prior work on table
structure recognition (TSR) has mainly centered around complex task-specific
combinations of available inputs and tools. We present UniTable, a training
framework that unifies both the training paradigm and training objective of
TSR. Its training paradigm combines the simplicity of purely pixel-level inputs
with the effectiveness and scalability empowered by self-supervised pretraining
(SSP) from diverse unannotated tabular images. Our framework unifies the
training objectives of all three TSR tasks - extracting table structure, cell
content, and cell bounding box (bbox) - into a unified task-agnostic training
objective: language modeling. Extensive quantitative and qualitative analyses
highlight UniTable's state-of-the-art (SOTA) performance on four of the largest
TSR datasets. To promote reproducible research, enhance transparency, and SOTA
innovations, we open-source our code at https://github.com/poloclub/unitable
and release the first-of-its-kind Jupyter Notebook of the whole inference
pipeline, fine-tuned across multiple TSR datasets, supporting all three TSR
tasks.
- Abstract(参考訳): テーブルは、機械が解析することがしばしば困難である人間の暗黙の規則で、事実と量的なデータを伝達する。
テーブル構造認識(TSR)の研究は、主に利用可能な入力とツールの複雑なタスク固有の組み合わせに焦点を当てている。
本稿では,tsrのトレーニングパラダイムとトレーニング目標の両方を統合するトレーニングフレームワークであるunitableを提案する。
そのトレーニングパラダイムは、純粋にピクセルレベルの入力の単純さと、さまざまな未注釈の表画像からの自己教師付き事前学習(SSP)によって強化された有効性とスケーラビリティを組み合わせる。
本フレームワークは、テーブル構造、セルコンテンツ、セルバウンディングボックス(bbox)を抽出する3つのTSRタスクのトレーニング目標を、タスク非依存のトレーニング目標である言語モデリングに統一する。
大規模で質的な分析では、最大のTSRデータセットの4つでUniTableのSOTA(State-of-the-art)のパフォーマンスを強調している。
再現可能な研究を促進し、透明性を高め、SOTAのイノベーションを促進するため、私たちはhttps://github.com/poloclub/unitableでコードをオープンソース化し、3つのTSRタスクすべてをサポートする複数のTSRデータセットを微調整した、推論パイプライン全体の最初のJupyter Notebookをリリースしました。
関連論文リスト
- TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection [21.11998015053674]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - Large Language Models are Complex Table Parsers [26.66460264175336]
本稿では,複合表QAの課題に対処するため,GPT-3.5を導入することを提案する。
具体的には、各セルの階層構造、位置情報、およびコンテンツをデータセットとしてエンコードする。
本研究では,各タスクの意味の説明的記述によるプロンプトテンプレートの強化により,階層的認識構造能力を効果的に向上する。
論文 参考訳(メタデータ) (2023-12-13T01:34:42Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Handling big tabular data of ICT supply chains: a multi-task,
machine-interpretable approach [13.976736586808308]
表構造認識(TSR)タスクと表細胞型分類(CTC)タスクを定義する。
提案手法は, ICDAR2013およびUNLVデータセットにおいて, 最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-08-11T20:29:45Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。