論文の概要: ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX
- arxiv url: http://arxiv.org/abs/2105.14426v1
- Date: Sun, 30 May 2021 04:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 12:25:10.393956
- Title: ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX
- Title(参考訳): ICDAR 2021 Conference on Scientific Table Image Recognition to LaTeX
- Authors: Pratik Kayal, Mrinal Anand, Harsh Desai, Mayank Singh
- Abstract要約: 本稿では,ICDAR 2021コンペティションのデータセット,課題,参加者の方法,結果について論じる。
本稿では,画像から構造コードを再構成し,画像からコンテンツコードを再構成する2つのサブタスクを提案する。
本報告では、データセットと基礎的真理仕様、使用したパフォーマンス評価指標の詳細、最終結果の提示、参加メソッドの要約について述べる。
- 参考スコア(独自算出の注目度): 1.149654395906819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables present important information concisely in many scientific documents.
Visual features like mathematical symbols, equations, and spanning cells make
structure and content extraction from tables embedded in research documents
difficult. This paper discusses the dataset, tasks, participants' methods, and
results of the ICDAR 2021 Competition on Scientific Table Image Recognition to
LaTeX. Specifically, the task of the competition is to convert a tabular image
to its corresponding LaTeX source code. We proposed two subtasks. In Subtask 1,
we ask the participants to reconstruct the LaTeX structure code from an image.
In Subtask 2, we ask the participants to reconstruct the LaTeX content code
from an image. This report describes the datasets and ground truth
specification, details the performance evaluation metrics used, presents the
final results, and summarizes the participating methods. Submission by team
VCGroup got the highest Exact Match accuracy score of 74% for Subtask 1 and 55%
for Subtask 2, beating previous baselines by 5% and 12%, respectively. Although
improvements can still be made to the recognition capabilities of models, this
competition contributes to the development of fully automated table recognition
systems by challenging practitioners to solve problems under specific
constraints and sharing their approaches; the platform will remain available
for post-challenge submissions at
https://competitions.codalab.org/competitions/26979 .
- Abstract(参考訳): 表は多くの科学的文書に簡潔に重要な情報を示す。
数学的記号、方程式、スパンニングセルなどの視覚的特徴は、研究文書に埋め込まれたテーブルから構造と内容の抽出を困難にする。
本稿では,LaTeX における ICDAR 2021 Competition on Scientific Table Image Recognition のデータセット,タスク,参加者の方法,および結果について論じる。
具体的には、競合のタスクは、表イメージを対応するlatexソースコードに変換することである。
我々は2つのサブタスクを提案した。
Subtask 1では、参加者にイメージからLaTeX構造コードを再構築するよう依頼する。
Subtask 2では、参加者にイメージからLaTeXコンテンツコードを再構築するよう依頼する。
本報告では、データセットと基底真理の仕様、使用するパフォーマンス評価メトリクスの詳細、最終結果の提示、参加方法の要約について述べる。
team vcgroupによる投稿は、subtask 1で74%、subtask 2で55%、以前のベースラインで5%、そして12%という、最も正確なマッチング精度スコアを得た。
モデルの認識能力にはまだ改善の余地があるが、このコンペティションは、特定の制約の下で問題を解決するために実践者に挑戦し、そのアプローチを共有することによって、完全に自動化されたテーブル認識システムの開発に寄与する。
関連論文リスト
- LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文 参考訳(メタデータ) (2024-09-21T17:18:49Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Tables to LaTeX: structure and content extraction from scientific tables [0.848135258677752]
我々は,トランスフォーマーに基づく言語モデリングパラダイムを,科学テーブル構造とコンテンツ抽出に適用する。
我々は, 表構造と内容抽出において, 70.35 と 49.69% の正確な一致精度を達成した。
論文 参考訳(メタデータ) (2022-10-31T12:08:39Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table
Image Recognition to Latex [16.003357804292513]
ICDAR 2021 コンペティションにはテーブル構造再構成(TSR)とテーブルコンテンツ再構成(TCR)の2つのサブタスクがある。
最初にシーンテキスト認識のために提案されたアルゴリズムMASTER citelu 2019masterを活用します。
TSRタスクでは0.7444 Exact Matchと0.8765 Exact Match @95%を達成し、TCRタスクでは0.5586 Exact Matchと0.7386 Exact Match 95%を得る。
論文 参考訳(メタデータ) (2021-05-05T03:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。