論文の概要: ConvMath: A Convolutional Sequence Network for Mathematical Expression
Recognition
- arxiv url: http://arxiv.org/abs/2012.12619v1
- Date: Wed, 23 Dec 2020 12:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:08:34.780124
- Title: ConvMath: A Convolutional Sequence Network for Mathematical Expression
Recognition
- Title(参考訳): ConvMath: 数学的表現認識のための畳み込みシーケンスネットワーク
- Authors: Zuoyu Yan, Xiaode Zhang, Liangcai Gao, Ke Yuan and Zhi Tang
- Abstract要約: ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。
提案手法は,従来の手法よりも精度と効率性が向上した。
- 参考スコア(独自算出の注目度): 11.645568743440087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advances in optical character recognition (OCR),
mathematical expressions still face a great challenge to recognize due to their
two-dimensional graphical layout. In this paper, we propose a convolutional
sequence modeling network, ConvMath, which converts the mathematical expression
description in an image into a LaTeX sequence in an end-to-end way. The network
combines an image encoder for feature extraction and a convolutional decoder
for sequence generation. Compared with other Long Short Term Memory(LSTM) based
encoder-decoder models, ConvMath is entirely based on convolution, thus it is
easy to perform parallel computation. Besides, the network adopts multi-layer
attention mechanism in the decoder, which allows the model to align output
symbols with source feature vectors automatically, and alleviates the problem
of lacking coverage while training the model. The performance of ConvMath is
evaluated on an open dataset named IM2LATEX-100K, including 103556 samples. The
experimental results demonstrate that the proposed network achieves
state-of-the-art accuracy and much better efficiency than previous methods.
- Abstract(参考訳): 近年の光学的文字認識(OCR)の進歩にもかかわらず、数学的表現は2次元のグラフィカルレイアウトのために認識する上で大きな課題に直面している。
本稿では,画像中の数学的表現記述をLaTeXシーケンスに変換する畳み込みシーケンスモデリングネットワークであるConvMathを提案する。
特徴抽出用画像エンコーダと、シーケンス生成用畳み込みデコーダとを組み合わせたネットワークである。
他のLong Short Term Memory(LSTM)ベースのエンコーダデコーダモデルと比較して、ConvMathは完全に畳み込みに基づいているため、並列計算が容易である。
さらに、ネットワークはデコーダにマルチレイヤーアテンション機構を採用しており、モデルが出力シンボルをソース特徴ベクトルと自動的に整合させ、モデルのトレーニング中にカバレッジ不足の問題を軽減することができる。
ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。
実験の結果,提案ネットワークは従来の手法よりも精度が高く,効率も優れていた。
関連論文リスト
- PottsMGNet: A Mathematical Explanation of Encoder-Decoder Based Neural
Networks [7.668812831777923]
アルゴリズムの観点から,エンコーダ・デコーダに基づくネットワークアーキテクチャについて検討する。
画像分割には2相ポッツモデルを用いる。
離散的なPottsMGNetはエンコーダ-デコーダベースネットワークと等価であることを示す。
論文 参考訳(メタデータ) (2023-07-18T07:48:48Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Low PAPR MIMO-OFDM Design Based on Convolutional Autoencoder [20.544993155126967]
ピーク対平均電力比(mathsfPAPR$)削減と波形設計のための新しい枠組みを提案する。
畳み込みオートコーダ(mathsfCAE$)アーキテクチャが提示される。
1つのトレーニングされたモデルが、幅広いSNRレベルにわたって、$mathsfPAPR$の削減、スペクトル設計、および$mathsfMIMO$の検出のタスクをカバーしていることを示す。
論文 参考訳(メタデータ) (2023-01-11T11:35:10Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for
Printed Mathematical Expression Recognition [23.658113675853546]
シンボルレベルの特徴を持つエンコーダデコーダを省略したEという新しい手法を提案し,画像から印刷された数学的表現を識別する。
Eは92.7%と89.0%の評価を達成しており、これは最先端の手法よりも3.47%と4.04%高い。
論文 参考訳(メタデータ) (2020-07-06T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。