論文の概要: EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for
Printed Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2007.02517v1
- Date: Mon, 6 Jul 2020 03:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:35:03.807109
- Title: EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for
Printed Mathematical Expression Recognition
- Title(参考訳): EDSL: 記号レベル特徴を持つエンコーダデコーダアーキテクチャによる数式認識
- Authors: Yingnan Fu, Tingting Liu, Ming Gao, Aoying Zhou
- Abstract要約: シンボルレベルの特徴を持つエンコーダデコーダを省略したEという新しい手法を提案し,画像から印刷された数学的表現を識別する。
Eは92.7%と89.0%の評価を達成しており、これは最先端の手法よりも3.47%と4.04%高い。
- 参考スコア(独自算出の注目度): 23.658113675853546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Printed Mathematical expression recognition (PMER) aims to transcribe a
printed mathematical expression image into a structural expression, such as
LaTeX expression. It is a crucial task for many applications, including
automatic question recommendation, automatic problem solving and analysis of
the students, etc. Currently, the mainstream solutions rely on solving image
captioning tasks, all addressing image summarization. As such, these methods
can be suboptimal for solving MER problem.
In this paper, we propose a new method named EDSL, shorted for
encoder-decoder with symbol-level features, to identify the printed
mathematical expressions from images. The symbol-level image encoder of EDSL
consists of segmentation module and reconstruction module. By performing
segmentation module, we identify all the symbols and their spatial information
from images in an unsupervised manner. We then design a novel reconstruction
module to recover the symbol dependencies after symbol segmentation.
Especially, we employ a position correction attention mechanism to capture the
spatial relationships between symbols. To alleviate the negative impact from
long output, we apply the transformer model for transcribing the encoded image
into the sequential and structural output. We conduct extensive experiments on
two real datasets to verify the effectiveness and rationality of our proposed
EDSL method. The experimental results have illustrated that EDSL has achieved
92.7\% and 89.0\% in evaluation metric Match, which are 3.47\% and 4.04\%
higher than the state-of-the-art method. Our code and datasets are available at
https://github.com/abcAnonymous/EDSL .
- Abstract(参考訳): print mathematical expression recognition (pmer) は、印刷された数学的表現画像をラテックス表現のような構造的表現に転写することを目的としている。
これは、自動質問推薦、自動問題解決、学生の分析など、多くのアプリケーションにとって重要なタスクである。
現在主流のソリューションは、画像の要約に対処するイメージキャプションタスクの解決に依存している。
したがって、これらの手法はMER問題の解法に最適である。
本稿では,シンボルレベルの特徴を持つエンコーダデコーダを短縮し,画像から印刷された数式を識別する,edslという新しい手法を提案する。
EDSLのシンボルレベル画像エンコーダは、セグメンテーションモジュールと再構成モジュールで構成される。
セグメンテーションモジュールを実行することで、すべてのシンボルとその空間情報を教師なしの方法で画像から識別する。
次に,シンボルセグメンテーション後のシンボル依存を回復するための新しい再構築モジュールを設計する。
特に,シンボル間の空間的関係を捉えるために位置補正注意機構を用いる。
長出力からの負の影響を緩和するために,エンコードされた画像を逐次出力および構造出力に変換するトランスモデルを適用する。
提案手法の有効性と合理性を検証するため,2つの実データを用いた広範囲な実験を行った。
実験結果から,EDSLは評価基準マッチングにおいて92.7.%,89.0.%を達成しており,これは最先端法よりも3.47.%,4.04.%高い結果となった。
私たちのコードとデータセットはhttps://github.com/abcAnonymous/EDSL で公開されています。
関連論文リスト
- Interpreting CLIP's Image Representation via Text-Based Decomposition [80.34129476152519]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Offline Handwritten Mathematical Recognition using Adversarial Learning
and Transformers [3.9220281834178463]
オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。
本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。
最新のCROHME 2019テストセットを4%改善しました。
論文 参考訳(メタデータ) (2022-08-20T11:45:02Z) - Symbolic Expression Transformer: A Computer Vision Approach for Symbolic
Regression [9.978824294461196]
シンボリック回帰(英: Symbolic Regression、SR)は、データに最も適合する数学的表現を自動的に見つけるための回帰分析の一種である。
人間はその曲線に基づいて数学的表現を推測できるという事実に触発され、記号表現変換器(SET)を提案する。
SETは、SRのコンピュータビジョンの観点からのサンプル非依存モデルである。
論文 参考訳(メタデータ) (2022-05-24T05:35:46Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。
GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。
本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文 参考訳(メタデータ) (2021-11-30T18:24:04Z) - Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning [4.366088315820477]
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントな物体の提案を取得し,それらの関係性を調査してキャプションを生成する。
実験により、オブジェクトの周囲における関連性や視覚的特徴と幾何学的に局所化された比率との結合が、関連するラベルと組み合わせることで、意味のあるキャプションを定義するのに役立つことが示された。
論文 参考訳(メタデータ) (2021-09-16T08:43:46Z) - ConvMath: A Convolutional Sequence Network for Mathematical Expression
Recognition [11.645568743440087]
ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。
提案手法は,従来の手法よりも精度と効率性が向上した。
論文 参考訳(メタデータ) (2020-12-23T12:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。