論文の概要: SPRINT: Script-agnostic Structure Recognition in Tables
- arxiv url: http://arxiv.org/abs/2503.11932v1
- Date: Sat, 15 Mar 2025 00:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:44.004503
- Title: SPRINT: Script-agnostic Structure Recognition in Tables
- Title(参考訳): SPRINT: 表におけるスクリプトに依存しない構造認識
- Authors: Dhruv Kudale, Badri Vishal Kasuba, Venkatapathy Subramanian, Parag Chaudhuri, Ganesh Ramakrishnan,
- Abstract要約: 表構造認識(TSR)は、情報検索、テーブル再構築、文書理解など、さまざまな下流業務に不可欠である。
言語に依存しないセル配置予測としてTSRを提案し,表にSPRINT, スクリプトに依存しない構造認識を導入する。
我々は、PubTabNet、FinTabNet、PubTables-1Mを含むベンチマークTSRデータセットのパフォーマンスを実験的に評価した。
- 参考スコア(独自算出の注目度): 20.394597266150534
- License:
- Abstract: Table Structure Recognition (TSR) is vital for various downstream tasks like information retrieval, table reconstruction, and document understanding. While most state-of-the-art (SOTA) research predominantly focuses on TSR in English documents, the need for similar capabilities in other languages is evident, considering the global diversity of data. Moreover, creating substantial labeled data in non-English languages and training these SOTA models from scratch is costly and time-consuming. We propose TSR as a language-agnostic cell arrangement prediction and introduce SPRINT, Script-agnostic Structure Recognition in Tables. SPRINT uses recently introduced Optimized Table Structure Language (OTSL) sequences to predict table structures. We show that when coupled with a pre-trained table grid estimator, SPRINT can improve the overall tree edit distance-based similarity structure scores of tables even for non-English documents. We experimentally evaluate our performance across benchmark TSR datasets including PubTabNet, FinTabNet, and PubTables-1M. Our findings reveal that SPRINT not only matches SOTA models in performance on standard datasets but also demonstrates lower latency. Additionally, SPRINT excels in accurately identifying table structures in non-English documents, surpassing current leading models by showing an absolute average increase of 11.12%. We also present an algorithm for converting valid OTSL predictions into a widely used HTML-based table representation. To encourage further research, we release our code and Multilingual Scanned and Scene Table Structure Recognition Dataset, MUSTARD labeled with OTSL sequences for 1428 tables in thirteen languages encompassing several scripts at https://github.com/IITB-LEAP-OCR/SPRINT
- Abstract(参考訳): 表構造認識(TSR)は、情報検索、テーブル再構築、文書理解など、さまざまな下流業務に不可欠である。
多くの最先端(SOTA)研究は、主に英語文書におけるTSRに焦点を当てているが、他の言語でも同様の能力の必要性は、データのグローバルな多様性を考慮すると明らかである。
さらに、英語以外の言語で実質的なラベル付きデータを作成し、これらSOTAモデルをスクラッチからトレーニングすることは、コストと時間を要する。
言語に依存しないセル配置予測としてTSRを提案し,表にSPRINT, スクリプトに依存しない構造認識を導入する。
SPRINTは、最近導入されたOptimized Table Structure Language (OTSL) シーケンスを使用してテーブル構造を予測する。
事前学習されたテーブルグリッド推定器と組み合わせることで、SPRINTは、非英語文書であってもテーブルの編集距離に基づく類似度構造スコアを総合的に改善できることを示す。
我々は、PubTabNet、FinTabNet、PubTables-1Mを含むベンチマークTSRデータセットのパフォーマンスを実験的に評価した。
以上の結果から,SPRINTは標準データセット上でのSOTAモデルに適合するだけでなく,レイテンシの低下も示している。
さらに、SPRINTは、非英語文書のテーブル構造を正確に識別し、絶対的な平均11.12%の増加を示すことで、現在の先行モデルを上回っている。
また、有効なOTSL予測を広く使われているHTMLベースのテーブル表現に変換するアルゴリズムを提案する。
さらなる研究を促進するため、私たちはコードとMultilingual Scanned and Scene Table Structure Recognition Datasetをリリースした。MUSTARDは、https://github.com/IITB-LEAP-OCR/SPRINTで複数のスクリプトを含む13言語で、OTSLシーケンスをラベル付けして1428のテーブルにラベル付けした。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Optimized Table Tokenization for Table Structure Recognition [2.9398911304923447]
変換器ベースのモデルでは、画像からマークアップ・シーケンスのアプローチを用いてテーブル構造を印象的な精度で認識できることが示されている。
テーブルのイメージのみを取ると、そのようなモデルはテーブルの構造を表すトークンのシーケンスを予測する。
本稿では,最小限の語彙と特定の規則を持つテーブル構造言語(OTSL)を提案する。
論文 参考訳(メタデータ) (2023-05-05T09:38:47Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。