論文の概要: TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement
- arxiv url: http://arxiv.org/abs/2312.11043v1
- Date: Mon, 18 Dec 2023 09:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:43:49.923375
- Title: TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement
- Title(参考訳): tdelta:学習テキストアレンジメントに基づく軽量でロバストなテーブル検出手法
- Authors: Yang Fan, Xiangping Wu, Qingcai Chen, Heng Li, Yan Huang, Zhixiang
Cai, Qitian Wu
- Abstract要約: 本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
- 参考スコア(独自算出の注目度): 34.73880086005418
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The diversity of tables makes table detection a great challenge, leading to
existing models becoming more tedious and complex. Despite achieving high
performance, they often overfit to the table style in training set, and suffer
from significant performance degradation when encountering out-of-distribution
tables in other domains. To tackle this problem, we start from the essence of
the table, which is a set of text arranged in rows and columns. Based on this,
we propose a novel, light-weighted and robust Table Detection method based on
Learning Text Arrangement, namely TDeLTA. TDeLTA takes the text blocks as
input, and then models the arrangement of them with a sequential encoder and an
attention module. To locate the tables precisely, we design a
text-classification task, classifying the text blocks into 4 categories
according to their semantic roles in the tables. Experiments are conducted on
both the text blocks parsed from PDF and extracted by open-source OCR tools,
respectively. Compared to several state-of-the-art methods, TDeLTA achieves
competitive results with only 3.1M model parameters on the large-scale public
datasets. Moreover, when faced with the cross-domain data under the 0-shot
setting, TDeLTA outperforms baselines by a large margin of nearly 7%, which
shows the strong robustness and transferability of the proposed model.
- Abstract(参考訳): テーブルの多様性により、テーブル検出は大きな課題となり、既存のモデルはより退屈で複雑になる。
ハイパフォーマンスを達成したにも関わらず、トレーニングセットのテーブルスタイルに過度に適合することが多く、他のドメインで分散テーブルに遭遇すると、パフォーマンスが著しく低下する。
この問題に取り組むために、テーブルの本質から始めます。テーブルは行と列に配置されたテキストのセットです。
そこで本研究では,学習テキストアレンジメント(TDeLTA)に基づく,新しい,軽量で堅牢なテーブル検出手法を提案する。
TDeLTAはテキストブロックを入力として取り、シーケンシャルエンコーダとアテンションモジュールでそれらの配列をモデル化する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
PDF から解析したテキストブロックとオープンソース OCR ツールで抽出したテキストブロックについて実験を行った。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
さらに、0ショット設定下でのクロスドメインデータに直面した場合、tdeltaはベースラインを7%近くという大きなマージンで上回り、提案モデルの強固さと転送性を示している。
関連論文リスト
- TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - ReTAG: Reasoning Aware Table to Analytic Text Generation [12.603569641254417]
ReTAGは、ベクトル量子化を用いて異なるタイプの解析的推論を出力に注入するテーブルおよび推論認識モデルである。
私たちは、ToTTo、InfoTabsデータセットを参照文毎に推論カテゴリで拡張(そして、オープンソースの35.6K分析、55.9k記述インスタンス)します。
論文 参考訳(メタデータ) (2023-05-19T17:03:09Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。