論文の概要: Synthesizing Realistic Data for Table Recognition
- arxiv url: http://arxiv.org/abs/2404.11100v1
- Date: Wed, 17 Apr 2024 06:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:04:52.109036
- Title: Synthesizing Realistic Data for Table Recognition
- Title(参考訳): テーブル認識のための実データ合成
- Authors: Qiyu Hou, Jun Wang, Meixuan Qiao, Lujun Tian,
- Abstract要約: 本稿では,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
中国の金融発表から表の構造と内容を活用することで、我々は最初の広範囲な表アノテーションデータセットを開発した。
我々は、中国の金融発表領域における実世界の複合表の初歩的ベンチマークを確立し、このベンチマークを用いて、我々の合成データに基づいてトレーニングされたモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 4.500373384879752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To overcome the limitations and challenges of current automatic table data annotation methods and random table data synthesis approaches, we propose a novel method for synthesizing annotation data specifically designed for table recognition. This method utilizes the structure and content of existing complex tables, facilitating the efficient creation of tables that closely replicate the authentic styles found in the target domain. By leveraging the actual structure and content of tables from Chinese financial announcements, we have developed the first extensive table annotation dataset in this domain. We used this dataset to train several recent deep learning-based end-to-end table recognition models. Additionally, we have established the inaugural benchmark for real-world complex tables in the Chinese financial announcement domain, using it to assess the performance of models trained on our synthetic data, thereby effectively validating our method's practicality and effectiveness. Furthermore, we applied our synthesis method to augment the FinTabNet dataset, extracted from English financial announcements, by increasing the proportion of tables with multiple spanning cells to introduce greater complexity. Our experiments show that models trained on this augmented dataset achieve comprehensive improvements in performance, especially in the recognition of tables with multiple spanning cells.
- Abstract(参考訳): そこで本研究では,従来の自動表データアノテーション手法と乱数表データ合成手法の限界と課題を克服するために,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
この方法は、既存の複雑なテーブルの構造と内容を利用することで、ターゲット領域にある真のスタイルを忠実に再現するテーブルの効率的な作成を容易にする。
中国の金融発表からテーブルの実際の構造と内容を活用することで、この領域で最初の広範なテーブルアノテーションデータセットを開発した。
このデータセットを使用して、最近のディープラーニングベースのエンドツーエンドテーブル認識モデルをトレーニングしました。
さらに,中国の金融発表領域における実世界の複合表の初歩的ベンチマークを構築し,その手法を用いて,合成データに基づいてトレーニングしたモデルの性能評価を行い,本手法の実用性と有効性を効果的に検証した。
さらに,複数のスパンニングセルを持つテーブルの比率を増大させることにより,FinTabNetデータセットを英語の財務発表から抽出し,複雑さを増すために合成手法を適用した。
実験により, このデータセットでトレーニングしたモデルは, 特に複数のスパンニングセルを持つテーブルの認識において, 総合的な性能向上を実現することが示された。
関連論文リスト
- Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Privately generating tabular data using language models [80.67328256105891]
テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。
本稿では,テーブル内の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T21:53:14Z) - Schema-Driven Information Extraction from Heterogeneous Tables [30.302982262763447]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System [84.39812458417246]
完全テーブル認識処理を行い、最も頻繁なテーブル形式をサポートする2つのルールベースのアルゴリズムを開発する。
意味情報の抽出をテーブル認識プロセスに組み込むため,グラフに基づくテーブル解釈法を開発した。
我々のテーブル認識アプローチは、最先端のアプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2021-05-25T12:31:02Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。