論文の概要: Handwritten Mathematical Expression Recognition via Attention
Aggregation based Bi-directional Mutual Learning
- arxiv url: http://arxiv.org/abs/2112.03603v1
- Date: Tue, 7 Dec 2021 09:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 21:46:03.417362
- Title: Handwritten Mathematical Expression Recognition via Attention
Aggregation based Bi-directional Mutual Learning
- Title(参考訳): 双方向相互学習による注意集約による手書き数式認識
- Authors: Xiaohang Bian, Bo Qin, Xiaozhe Xin, Jianwu Li, Xuefeng Su, Yanfeng
Wang
- Abstract要約: 本稿では,アテンションアグリゲーションに基づく双方向相互学習ネットワーク(ABM)を提案する。
推論フェーズでは、モデルが既に2つの逆方向から知識を学習していることを考えると、推論にはL2Rブランチのみを使用する。
提案手法は,CROHME 2014 では 56.85 %,CROHME 2016 では 52.92 %,CROHME 2019 では 53.96 % である。
- 参考スコア(独自算出の注目度): 13.696706205837234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten mathematical expression recognition aims to automatically
generate LaTeX sequences from given images. Currently, attention-based
encoder-decoder models are widely used in this task. They typically generate
target sequences in a left-to-right (L2R) manner, leaving the right-to-left
(R2L) contexts unexploited. In this paper, we propose an Attention aggregation
based Bi-directional Mutual learning Network (ABM) which consists of one shared
encoder and two parallel inverse decoders (L2R and R2L). The two decoders are
enhanced via mutual distillation, which involves one-to-one knowledge transfer
at each training step, making full use of the complementary information from
two inverse directions. Moreover, in order to deal with mathematical symbols in
diverse scales, an Attention Aggregation Module (AAM) is proposed to
effectively integrate multi-scale coverage attentions. Notably, in the
inference phase, given that the model already learns knowledge from two inverse
directions, we only use the L2R branch for inference, keeping the original
parameter size and inference speed. Extensive experiments demonstrate that our
proposed approach achieves the recognition accuracy of 56.85 % on CROHME 2014,
52.92 % on CROHME 2016, and 53.96 % on CROHME 2019 without data augmentation
and model ensembling, substantially outperforming the state-of-the-art methods.
The source code is available in the supplementary materials.
- Abstract(参考訳): 手書き数式認識は、与えられた画像からラテックスシーケンスを自動的に生成することを目的としている。
現在、注意に基づくエンコーダ・デコーダモデルが広く使われている。
通常は左から右(l2r)の方法でターゲットシーケンスを生成し、右から左(r2l)のコンテキストは爆発しない。
本稿では、1つの共有エンコーダと2つの並列逆デコーダ(L2RとR2L)からなるアテンションアグリゲーションに基づく双方向相互学習ネットワーク(ABM)を提案する。
2つのデコーダは、各トレーニングステップで1対1の知識転送を含む相互蒸留によって強化され、2つの逆方向からの補完情報をフル活用する。
さらに,多様なスケールで数学的記号を扱うために,マルチスケールの注意を効果的に統合するアテンションアグリゲーションモジュール (aam) を提案する。
特に、モデルが既に2つの逆方向から知識を学習していることを考えると、推論にはL2Rブランチのみを使用し、元のパラメータサイズと推論速度を維持する。
広範な実験により,提案手法がcrohme 2014では56.85 %,crohme 2016では52.92 %,crohme 2019では53.96 %の認識精度を,データ拡張やモデルセンシングなしで達成できることが実証された。
ソースコードは補足資料で入手できる。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Enhancing Motor Imagery Decoding in Brain Computer Interfaces using
Riemann Tangent Space Mapping and Cross Frequency Coupling [5.860347939369221]
運動画像(MI)は脳コンピュータインタフェース(BCI)の領域における重要な実験パラダイムである
本稿では,MI特徴量に関する表現品質と復号化能力を向上させるための新しい手法を提案する。
さらに特徴抽出と分類のために軽量畳み込みニューラルネットワークが使用され、クロスエントロピーとセンターロスの共同管理の下で動作している。
論文 参考訳(メタデータ) (2023-10-29T23:37:47Z) - Handwritten Mathematical Expression Recognition with Bidirectionally
Trained Transformer [2.952085248753861]
トランスデコーダデコーダを使用してRNNベースのデコーダを置き換える。
実験により, CROHME 2014における現在の最先端手法のExpRateを2.23%改善した。
論文 参考訳(メタデータ) (2021-05-06T03:11:54Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Attentive WaveBlock: Complementarity-enhanced Mutual Networks for
Unsupervised Domain Adaptation in Person Re-identification and Beyond [97.25179345878443]
本稿では,新しい軽量モジュールであるAttentive WaveBlock (AWB)を提案する。
AWBは相互学習の二重ネットワークに統合され、相互学習の相補性を高め、擬似ラベルのノイズをさらに抑えることができる。
実験により, 提案手法は, 複数のUDA人物再識別タスクを大幅に改善し, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T15:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。