論文の概要: PP-FormulaNet: Bridging Accuracy and Efficiency in Advanced Formula Recognition
- arxiv url: http://arxiv.org/abs/2503.18382v1
- Date: Mon, 24 Mar 2025 06:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:37.864596
- Title: PP-FormulaNet: Bridging Accuracy and Efficiency in Advanced Formula Recognition
- Title(参考訳): PP-FormulaNet:高度なフォーミュラ認識におけるブリッジ精度と効率性
- Authors: Hongen Liu, Cheng Cui, Yuning Du, Yi Liu, Gang Pan,
- Abstract要約: 本稿では,最新式認識モデルPP-FormulaNetを提案する。
PP-FormulaNet-Lは、UniMERNetのような著名なモデルの精度を6%上回っている。
大量の高品質な公式データを抽出できるフォーミュラマイニングシステムを提案する。
- 参考スコア(独自算出の注目度): 11.411770309972948
- License:
- Abstract: Formula recognition is an important task in document intelligence. It involves converting mathematical expressions from document images into structured symbolic formats that computers can easily work with. LaTeX is the most common format used for this purpose. In this work, we present PP-FormulaNet, a state-of-the-art formula recognition model that excels in both accuracy and efficiency. To meet the diverse needs of applications, we have developed two specialized models: PP-FormulaNet-L, tailored for high-accuracy scenarios, and PP-FormulaNet-S, optimized for high-efficiency contexts. Our extensive evaluations reveal that PP-FormulaNet-L attains accuracy levels that surpass those of prominent models such as UniMERNet by a significant 6%. Conversely, PP-FormulaNet-S operates at speeds that are over 16 times faster. These advancements facilitate seamless integration of PP-FormulaNet into a broad spectrum of document processing environments that involve intricate mathematical formulas. Furthermore, we introduce a Formula Mining System, which is capable of extracting a vast amount of high-quality formula data. This system further enhances the robustness and applicability of our formula recognition model. Code and models are publicly available at PaddleOCR(https://github.com/PaddlePaddle/PaddleOCR) and PaddleX(https://github.com/PaddlePaddle/PaddleX).
- Abstract(参考訳): フォーミュラ認識は文書インテリジェンスにおいて重要なタスクである。
数学的表現を文書画像からコンピュータが容易に扱える構造化された記号形式に変換することを含む。
LaTeXはこの目的のために最も一般的なフォーマットである。
本研究では,精度と効率を両立させる最新式認識モデルPP-FormulaNetを提案する。
アプリケーションの多様なニーズを満たすため,我々は,高精度シナリオに適したPP-FormulaNet-Lと,高効率コンテキストに最適化されたPP-FormulaNet-Sという2つの特殊なモデルを開発した。
PP-FormulaNet-Lは,UniMERNetなどの著名なモデルの精度を6%上回る精度を実現している。
逆にPP-FormulaNet-Sは16倍以上の速度で動作する。
これらの進歩はPP-FormulaNetを複雑な数学的公式を含む幅広い文書処理環境にシームレスに統合するのに役立つ。
さらに,大量の高品質な公式データを抽出できるフォーミュラマイニングシステムを導入する。
このシステムは,式認識モデルの堅牢性と適用性をさらに向上させる。
コードとモデルはPaddleOCR(https://github.com/PaddlePaddle/PaddleOCR)とPaddleX(https://github.com/PaddlePaddle/PaddleX)で公開されている。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Conformal Predictions Enhanced Expert-guided Meshing with Graph Neural
Networks [8.736819316856748]
本稿では,GNN(Graph Neural Networks)とエキスパートガイダンスを用いて,航空機モデルのためのCFDメッシュの自動生成を行う機械学習方式を提案する。
曲面分類のための2つの最先端モデルであるPointNet++とPointMLPより優れた3次元分割アルゴリズムを提案する。
また,3次元メッシュ分割モデルからCAD表面への射影予測を共形予測法を用いて提案する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T14:39:13Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - PP-StructureV2: A Stronger Document Analysis System [9.846187457305879]
大量の文書データは、テキスト情報のない原画像のような構造化されていない形で存在する。
本稿では、レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP-StructureV2を提案する。
上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。
論文 参考訳(メタデータ) (2022-10-11T12:07:32Z) - Unsupervised Training Data Generation of Handwritten Formulas using
Generative Adversarial Networks with Self-Attention [3.785514121306353]
本稿では,文書から派生した数学的表現の大規模な学習例を作成するシステムを提案する。
そこで本研究では, 適応方程式を手書き公式に翻訳する, 注目に基づく新たな生成逆ネットワークを提案する。
このアプローチによって生成されたデータセットには何十万もの公式が含まれており、より複雑なモデルの設計や事前訓練に最適である。
論文 参考訳(メタデータ) (2021-06-17T12:27:18Z) - Privacy-Preserving Machine Learning with Fully Homomorphic Encryption
for Deep Neural Network [8.2840469490081]
ホモモルフィック暗号化(FHE)は、プライバシ保護機械学習(PPML)のためのツールの1つである。
FHEデータ上の従来のPPMLモデルは、単純な機械学習モデルと非標準的な機械学習モデルにのみ暗号化される。
本研究では,ReLUのような非算術的関数を十分精度で評価するために,最先端の近似法を用いる。
論文 参考訳(メタデータ) (2021-06-14T08:30:45Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。