Fugu-MT 論文翻訳(概要): EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for Printed Mathematical Expression Recognition

論文の概要: EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for Printed Mathematical Expression Recognition

arxiv url: http://arxiv.org/abs/2007.02517v1
Date: Mon, 6 Jul 2020 03:53:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 02:35:03.807109
Title: EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for Printed Mathematical Expression Recognition
Title（参考訳）: EDSL: 記号レベル特徴を持つエンコーダデコーダアーキテクチャによる数式認識
Authors: Yingnan Fu, Tingting Liu, Ming Gao, Aoying Zhou
Abstract要約: シンボルレベルの特徴を持つエンコーダデコーダを省略したEという新しい手法を提案し,画像から印刷された数学的表現を識別する。 Eは92.7%と89.0%の評価を達成しており、これは最先端の手法よりも3.47%と4.04%高い。
参考スコア（独自算出の注目度）: 23.658113675853546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Printed Mathematical expression recognition (PMER) aims to transcribe a printed mathematical expression image into a structural expression, such as LaTeX expression. It is a crucial task for many applications, including automatic question recommendation, automatic problem solving and analysis of the students, etc. Currently, the mainstream solutions rely on solving image captioning tasks, all addressing image summarization. As such, these methods can be suboptimal for solving MER problem. In this paper, we propose a new method named EDSL, shorted for encoder-decoder with symbol-level features, to identify the printed mathematical expressions from images. The symbol-level image encoder of EDSL consists of segmentation module and reconstruction module. By performing segmentation module, we identify all the symbols and their spatial information from images in an unsupervised manner. We then design a novel reconstruction module to recover the symbol dependencies after symbol segmentation. Especially, we employ a position correction attention mechanism to capture the spatial relationships between symbols. To alleviate the negative impact from long output, we apply the transformer model for transcribing the encoded image into the sequential and structural output. We conduct extensive experiments on two real datasets to verify the effectiveness and rationality of our proposed EDSL method. The experimental results have illustrated that EDSL has achieved 92.7\% and 89.0\% in evaluation metric Match, which are 3.47\% and 4.04\% higher than the state-of-the-art method. Our code and datasets are available at https://github.com/abcAnonymous/EDSL .
Abstract（参考訳）: print mathematical expression recognition (pmer) は、印刷された数学的表現画像をラテックス表現のような構造的表現に転写することを目的としている。これは、自動質問推薦、自動問題解決、学生の分析など、多くのアプリケーションにとって重要なタスクである。現在主流のソリューションは、画像の要約に対処するイメージキャプションタスクの解決に依存している。したがって、これらの手法はMER問題の解法に最適である。本稿では,シンボルレベルの特徴を持つエンコーダデコーダを短縮し,画像から印刷された数式を識別する,edslという新しい手法を提案する。 EDSLのシンボルレベル画像エンコーダは、セグメンテーションモジュールと再構成モジュールで構成される。セグメンテーションモジュールを実行することで、すべてのシンボルとその空間情報を教師なしの方法で画像から識別する。次に,シンボルセグメンテーション後のシンボル依存を回復するための新しい再構築モジュールを設計する。特に,シンボル間の空間的関係を捉えるために位置補正注意機構を用いる。長出力からの負の影響を緩和するために,エンコードされた画像を逐次出力および構造出力に変換するトランスモデルを適用する。提案手法の有効性と合理性を検証するため,2つの実データを用いた広範囲な実験を行った。実験結果から,EDSLは評価基準マッチングにおいて92.7.%,89.0.%を達成しており,これは最先端法よりも3.47.%,4.04.%高い結果となった。私たちのコードとデータセットはhttps://github.com/abcAnonymous/EDSL で公開されています。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。 PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T15:42:58Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文参考訳（メタデータ） (2024-05-15T02:03:44Z)
T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文参考訳（メタデータ） (2023-05-12T04:10:42Z)
Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文参考訳（メタデータ） (2022-12-21T18:58:41Z)
Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。 ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文参考訳（メタデータ） (2022-10-04T07:35:01Z)
Offline Handwritten Mathematical Recognition using Adversarial Learning and Transformers [3.9220281834178463]
オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。最新のCROHME 2019テストセットを4%改善しました。
論文参考訳（メタデータ） (2022-08-20T11:45:02Z)
Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。 GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文参考訳（メタデータ） (2021-11-30T18:24:04Z)
ConvMath: A Convolutional Sequence Network for Mathematical Expression Recognition [11.645568743440087]
ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。提案手法は,従来の手法よりも精度と効率性が向上した。
論文参考訳（メタデータ） (2020-12-23T12:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。