論文の概要: Optimized Table Tokenization for Table Structure Recognition
- arxiv url: http://arxiv.org/abs/2305.03393v1
- Date: Fri, 5 May 2023 09:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:42:13.546160
- Title: Optimized Table Tokenization for Table Structure Recognition
- Title(参考訳): テーブル構造認識のための最適化テーブルトークン化
- Authors: Maksym Lysak, Ahmed Nassar, Nikolaos Livathinos, Christoph Auer, Peter
Staar
- Abstract要約: 変換器ベースのモデルでは、画像からマークアップ・シーケンスのアプローチを用いてテーブル構造を印象的な精度で認識できることが示されている。
テーブルのイメージのみを取ると、そのようなモデルはテーブルの構造を表すトークンのシーケンスを予測する。
本稿では,最小限の語彙と特定の規則を持つテーブル構造言語(OTSL)を提案する。
- 参考スコア(独自算出の注目度): 2.9398911304923447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting tables from documents is a crucial task in any document conversion
pipeline. Recently, transformer-based models have demonstrated that
table-structure can be recognized with impressive accuracy using
Image-to-Markup-Sequence (Im2Seq) approaches. Taking only the image of a table,
such models predict a sequence of tokens (e.g. in HTML, LaTeX) which represent
the structure of the table. Since the token representation of the table
structure has a significant impact on the accuracy and run-time performance of
any Im2Seq model, we investigate in this paper how table-structure
representation can be optimised. We propose a new, optimised table-structure
language (OTSL) with a minimized vocabulary and specific rules. The benefits of
OTSL are that it reduces the number of tokens to 5 (HTML needs 28+) and
shortens the sequence length to half of HTML on average. Consequently, model
accuracy improves significantly, inference time is halved compared to
HTML-based models, and the predicted table structures are always syntactically
correct. This in turn eliminates most post-processing needs.
- Abstract(参考訳): ドキュメントからテーブルを抽出することは、どんなドキュメント変換パイプラインでも重要なタスクです。
近年, 変換器を用いたモデルでは, Image-to-Markup-Sequence (Im2Seq) を用いてテーブル構造を精度良く認識できることが示されている。
テーブルのイメージのみを用いて、そのようなモデルはテーブルの構造を表すトークンのシーケンス(例えばHTML、LaTeX)を予測する。
テーブル構造のトークン表現は,任意のIm2Seqモデルの精度と実行時間性能に大きな影響を及ぼすので,テーブル構造表現の最適化について検討する。
本稿では,最小限の語彙と特定の規則を持つテーブル構造言語(OTSL)を提案する。
OTSLの利点は、トークンの数を5に減らし(HTMLは28以上必要)、シーケンスの長さを平均で半分に短縮することである。
その結果、モデル精度は向上し、推論時間はHTMLベースのモデルに比べて半減し、予測テーブル構造は常に構文的に正しい。
これにより、ほとんどの後処理の必要性がなくなる。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TableFormer: Table Structure Understanding with Transformers [2.121963121603413]
テーブル構造同定モデルを提案する。
テーブルセルのための新しいオブジェクト検出デコーダ
次に、LSTMデコーダを変換器ベースのデコーダに置き換える。
論文 参考訳(メタデータ) (2022-03-02T10:46:24Z) - TableFormer: Robust Transformer Modeling for Table-Text Encoding [18.00127368618485]
テーブル理解のための既存のモデルはテーブル構造の線形化を必要とし、行や列の順序は不要なバイアスとしてエンコードされる。
本研究では,テーブルテキストエンコーディングアーキテクチャであるTableFormerを提案する。
論文 参考訳(メタデータ) (2022-03-01T07:23:06Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Understanding tables with intermediate pre-training [11.96734018295146]
我々は、テーブルベースのBERTモデルであるTAPAASを適用して、エンターテイメントを認識する。
我々は,テーブルプルーニングを前処理ステップとして評価し,トレーニングと予測効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-10-01T17:43:27Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。