論文の概要: LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement
- arxiv url: http://arxiv.org/abs/2409.14201v1
- Date: Sat, 21 Sep 2024 17:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:37:15.987968
- Title: LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement
- Title(参考訳): LATTE:反復リファインメントによるテーブルおよびフォーミュラのラテックス認識の改善
- Authors: Nan Jiang, Shanchao Liang, Chengxiao Wang, Jiannan Wang, Lin Tan,
- Abstract要約: LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
- 参考スコア(独自算出の注目度): 11.931911831112357
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Portable Document Format (PDF) files are dominantly used for storing and disseminating scientific research, legal documents, and tax information. LaTeX is a popular application for creating PDF documents. Despite its advantages, LaTeX is not WYSWYG -- what you see is what you get, i.e., the LaTeX source and rendered PDF images look drastically different, especially for formulae and tables. This gap makes it hard to modify or export LaTeX sources for formulae and tables from PDF images, and existing work is still limited. First, prior work generates LaTeX sources in a single iteration and struggles with complex LaTeX formulae. Second, existing work mainly recognizes and extracts LaTeX sources for formulae; and is incapable or ineffective for tables. This paper proposes LATTE, the first iterative refinement framework for LaTeX recognition. Specifically, we propose delta-view as feedback, which compares and pinpoints the differences between a pair of rendered images of the extracted LaTeX source and the expected correct image. Such delta-view feedback enables our fault localization model to localize the faulty parts of the incorrect recognition more accurately and enables our LaTeX refinement model to repair the incorrect extraction more accurately. LATTE improves the LaTeX source extraction accuracy of both LaTeX formulae and tables, outperforming existing techniques as well as GPT-4V by at least 7.07% of exact match, with a success refinement rate of 46.08% (formula) and 25.51% (table).
- Abstract(参考訳): Portable Document Format (PDF) ファイルは、科学研究、法的文書、税情報を保存するために主に使われている。
LaTeXはPDFドキュメントを作成するための人気のあるアプリケーションである。
LaTeXの利点はありますが、LaTeXはWYSWYGではありません。
このギャップにより、PDF画像から公式やテーブルのLaTeXソースの変更やエクスポートが難しくなり、既存の作業は制限されている。
まず、先行研究は1回の反復でLaTeXソースを生成し、複雑なLaTeX公式と競合する。
第2に、既存の研究は主に公式のLaTeXソースを認識して抽出する。
本稿では,LaTeX認識のための最初の反復改良フレームワークであるLATTEを提案する。
具体的には、抽出したLaTeXソースの1対の描画画像と予測された正しい画像との差を比較・ピンポイントするデルタビューをフィードバックとして提案する。
このようなデルタビューフィードバックにより,誤り認識の欠陥部分をより正確に局所化し,誤り抽出をより正確に修復するLaTeX精細化モデルを実現することができる。
LATTEはLaTeX式とテーブルの両方のLaTeXソース抽出精度を改善し、既存の技術とGPT-4Vの精度を少なくとも7.07%向上させ、46.08%(フォーミュラ)と25.51%(テーブル)を成功させた。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-07T18:07:15Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX [1.149654395906819]
本稿では,ICDAR 2021コンペティションのデータセット,課題,参加者の方法,結果について論じる。
本稿では,画像から構造コードを再構成し,画像からコンテンツコードを再構成する2つのサブタスクを提案する。
本報告では、データセットと基礎的真理仕様、使用したパフォーマンス評価指標の詳細、最終結果の提示、参加メソッドの要約について述べる。
論文 参考訳(メタデータ) (2021-05-30T04:17:55Z) - Reproducible Science with LaTeX [4.09920839425892]
本稿では,文書から外部ソースコードを実行する手順を提案する。
結果のPortable Document Format (pdf)ファイルに自動的に計算出力が含まれている。
論文 参考訳(メタデータ) (2020-10-04T04:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。