Fugu-MT 論文翻訳(概要): UniTable: Towards a Unified Framework for Table Recognition via Self-Supervised Pretraining

論文の概要: UniTable: Towards a Unified Framework for Table Recognition via Self-Supervised Pretraining

arxiv url: http://arxiv.org/abs/2403.04822v2
Date: Mon, 27 May 2024 15:39:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 06:36:16.116208
Title: UniTable: Towards a Unified Framework for Table Recognition via Self-Supervised Pretraining
Title（参考訳）: UniTable: 自己監督型事前学習によるテーブル認識のための統一フレームワーク
Authors: ShengYun Peng, Aishwarya Chakravarthy, Seongmin Lee, Xiaojing Wang, Rajarajeswari Balasubramaniyan, Duen Horng Chau,
Abstract要約: テーブル認識のトレーニングパラダイムとトレーニング目標を統合するためのトレーニングフレームワークであるUniTableを提案する。本フレームワークは,3つのTRタスクの学習目標を,タスク非依存の訓練目標である言語モデリングに統一する。 UniTableのテーブル解析機能は、既存のTRメソッドと一般的な視覚言語モデルの両方を上回っている。
参考スコア（独自算出の注目度）: 22.031699293366486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tables convey factual and quantitative data with implicit conventions created by humans that are often challenging for machines to parse. Prior work on table recognition (TR) has mainly centered around complex task-specific combinations of available inputs and tools. We present UniTable, a training framework that unifies both the training paradigm and training objective of TR. Its training paradigm combines the simplicity of purely pixel-level inputs with the effectiveness and scalability empowered by self-supervised pretraining from diverse unannotated tabular images. Our framework unifies the training objectives of all three TR tasks - extracting table structure, cell content, and cell bounding box - into a unified task-agnostic training objective: language modeling. Extensive quantitative and qualitative analyses highlight UniTable's state-of-the-art (SOTA) performance on four of the largest TR datasets. UniTable's table parsing capability has surpassed both existing TR methods and general large vision-language models, e.g., GPT-4o, GPT-4-turbo with vision, and LLaVA. Our code is publicly available at https://github.com/poloclub/unitable, featuring a Jupyter Notebook that includes the complete inference pipeline, fine-tuned across multiple TR datasets, supporting all three TR tasks.
Abstract（参考訳）: テーブルは、機械が解析することがしばしば困難である人間が生み出した暗黙の規則で、実データと量的データを伝達する。テーブル認識(TR)の研究は、主に利用可能な入力とツールの複雑なタスク固有の組み合わせに焦点を当てている。トレーニングパラダイムとトレーニング目標を一体化したトレーニングフレームワークであるUniTableを提案する。そのトレーニングパラダイムは、純粋にピクセルレベルの入力の単純さと、さまざまな未注釈の表画像からの自己教師付き事前学習によって強化された有効性とスケーラビリティを組み合わせている。本フレームワークは, 表構造, セル内容, セル境界ボックスを抽出する3つのTRタスクの学習目標を, タスク非依存の学習目標である言語モデリングに統一する。大規模で質的な分析により、最大のTRデータセットのうち4つでUniTableのSOTA(State-of-the-art)のパフォーマンスが明らかになった。 UniTableのテーブル解析能力は、既存のTR法と、GPT-4o、GPT-4-turbo with vision、LLaVAといった一般的なビジョン言語モデルに勝っている。私たちのコードはhttps://github.com/poloclub/unitableで公開されており、完全な推論パイプラインを含むJupyter Notebookを備え、複数のTRデータセットにわたって微調整され、3つのTRタスクすべてをサポートする。

関連論文リスト

Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。 4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文参考訳（メタデータ） (2025-06-06T14:52:19Z)
Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning [52.08794743921141]
本稿では,テーブルタスクに特化して設計された自己学習ファインチューニングパラダイムとして,テーブル-LLM-スペシャリスト(Table-LLM-Specialist,略してテーブル-スペシャリスト)を提案する。
論文参考訳（メタデータ） (2024-10-16T02:04:17Z)
TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。 LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文参考訳（メタデータ） (2024-09-18T06:19:59Z)
TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文参考訳（メタデータ） (2024-06-03T13:54:05Z)
Large Language Models are Complex Table Parsers [26.66460264175336]
本稿では,複合表QAの課題に対処するため,GPT-3.5を導入することを提案する。具体的には、各セルの階層構造、位置情報、およびコンテンツをデータセットとしてエンコードする。本研究では,各タスクの意味の説明的記述によるプロンプトテンプレートの強化により,階層的認識構造能力を効果的に向上する。
論文参考訳（メタデータ） (2023-12-13T01:34:42Z)
A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文参考訳（メタデータ） (2023-03-27T02:48:51Z)
Improving Cross-task Generalization of Unified Table-to-text Models with Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文参考訳（メタデータ） (2022-12-17T02:20:14Z)
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文参考訳（メタデータ） (2021-10-08T20:11:09Z)
TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文参考訳（メタデータ） (2021-05-06T11:15:16Z)
TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文参考訳（メタデータ） (2021-02-17T02:18:10Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文参考訳（メタデータ） (2020-06-26T05:44:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。