論文の概要: Offline Handwritten Mathematical Recognition using Adversarial Learning
and Transformers
- arxiv url: http://arxiv.org/abs/2208.09662v1
- Date: Sat, 20 Aug 2022 11:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:18:17.786660
- Title: Offline Handwritten Mathematical Recognition using Adversarial Learning
and Transformers
- Title(参考訳): 逆学習とトランスフォーマーを用いたオフライン手書き数量認識
- Authors: Ujjwal Thakur and Anuj Sharma
- Abstract要約: オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。
本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。
最新のCROHME 2019テストセットを4%改善しました。
- 参考スコア(独自算出の注目度): 3.9220281834178463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline Handwritten Mathematical Expression Recognition (HMER) is a major
area in the field of mathematical expression recognition. Offline HMER is often
viewed as a much harder problem as compared to online HMER due to a lack of
temporal information and variability in writing style. In this paper, we
purpose a encoder-decoder model that uses paired adversarial learning.
Semantic-invariant features are extracted from handwritten mathematical
expression images and their printed mathematical expression counterpart in the
encoder. Learning of semantic-invariant features combined with the DenseNet
encoder and transformer decoder, helped us to improve the expression rate from
previous studies. Evaluated on the CROHME dataset, we have been able to improve
latest CROHME 2019 test set results by 4% approx.
- Abstract(参考訳): オフライン手書き数式認識(英語版)(hmer)は、数式認識の分野で主要な分野である。
オフラインのHMERは、時間情報の欠如や書き込みスタイルの多様性のため、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。
本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。
手書きの数学的表現画像とそのエンコーダに印刷された数学的表現から意味不変な特徴を抽出する。
DenseNetエンコーダと変換器デコーダを組み合わせた意味不変機能の学習は,従来の研究から表現率の向上に寄与した。
crohmeデータセットで評価した結果、最新のcrohme 2019テストセットをおよそ4%改善することができた。
関連論文リスト
- PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文 参考訳(メタデータ) (2024-05-15T02:03:44Z) - An Intelligent-Detection Network for Handwritten Mathematical Expression
Recognition [0.9790236766474201]
HMERのためのIntelligent-Detection Network (IDN) は、オブジェクト検出技術を利用して従来のエンコーダ・デコーダ法とは異なる。
具体的には,デジタルオブジェクトとシンボルオブジェクトの両方を正確に検出できる拡張YOLOv7ネットワークを開発した。
実験により,提案手法は複雑な手書き数学的表現を認識する上で,エンコーダ・デコーダネットワークよりも優れていた。
論文 参考訳(メタデータ) (2023-11-26T12:01:50Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - A Transformer-based Math Language Model for Handwritten Math Expression
Recognition [7.202733269706245]
数学の記号は、ドットやコマ、0、O、oなどの書体で非常によく似ている。
本稿ではトランスフォーマーに基づく数学言語モデル(TMLM)を提案する。
TMLMは4.42の難易度を達成し、従来の数学言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-11T03:03:48Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for
Printed Mathematical Expression Recognition [23.658113675853546]
シンボルレベルの特徴を持つエンコーダデコーダを省略したEという新しい手法を提案し,画像から印刷された数学的表現を識別する。
Eは92.7%と89.0%の評価を達成しており、これは最先端の手法よりも3.47%と4.04%高い。
論文 参考訳(メタデータ) (2020-07-06T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。