論文の概要: SemiHMER: Semi-supervised Handwritten Mathematical Expression Recognition using pseudo-labels
- arxiv url: http://arxiv.org/abs/2502.07172v1
- Date: Tue, 11 Feb 2025 01:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:53.787973
- Title: SemiHMER: Semi-supervised Handwritten Mathematical Expression Recognition using pseudo-labels
- Title(参考訳): SemiHMER:擬似ラベルを用いた半教師付き手書き数式認識
- Authors: Kehua Chen, Haoyang Shen,
- Abstract要約: 本稿では,2分岐半教師付き学習を導入することで,単純かつ効果的な半教師付きHMERフレームワークを初めて提示する。
本稿では,HMERデコーダの性能向上を図るため,GDCM(Global Dynamic Counting Module)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, deep learning with Convolutional Neural Networks (CNNs) has achieved remarkable results in the field of HMER (Handwritten Mathematical Expression Recognition). However, it remains challenging to improve performance with limited labeled training data. This paper presents, for the first time, a simple yet effective semi-supervised HMER framework by introducing dual-branch semi-supervised learning. Specifically, we simplify the conventional deep co-training from consistency regularization to cross-supervised learning, where the prediction of one branch is used as a pseudo-label to supervise the other branch directly end-to-end. Considering that the learning of the two branches tends to converge in the later stages of model optimization, we also incorporate a weak-to-strong strategy by applying different levels of augmentation to each branch, which behaves like expanding the training data and improving the quality of network training. Meanwhile, We propose a novel module, Global Dynamic Counting Module(GDCM), to enhance the performance of the HMER decoder, which alleviates recognition inaccuracies in long-distance formula recognition and the occurrence of repeated characters. We release our code at https://github.com/chenkehua/SemiHMER.
- Abstract(参考訳): 近年,HMER(Handwritten Mathematical Expression Recognition)の分野では,畳み込みニューラルネットワーク(CNN)によるディープラーニングが顕著な成果を上げている。
しかし、ラベル付きトレーニングデータによってパフォーマンスを改善することは依然として困難である。
本稿では,2分岐半教師付き学習を導入することで,単純かつ効果的な半教師付きHMERフレームワークを初めて提示する。
具体的には、従来の深い協調学習を、一貫性の正則化からクロス教師付き学習へと単純化し、一方のブランチの予測を擬似ラベルとして使用して、もう一方のブランチを直接エンドツーエンドに監視する。
モデル最適化の後期に2つのブランチの学習が収束する傾向にあることを考えると、トレーニングデータの拡大やネットワークトレーニングの質の向上など、各ブランチに異なるレベルの拡張を適用することで、弱いから強い戦略も取り入れている。
本稿では,HMERデコーダの性能向上を目的としたGDCM(Global Dynamic Counting Module)を提案する。
コードをhttps://github.com/chenkehua/SemiHMER.comでリリースします。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - AttenScribble: Attentive Similarity Learning for Scribble-Supervised
Medical Image Segmentation [5.8447004333496855]
本稿では,単純かつ効果的なスクリブル教師あり学習フレームワークを提案する。
我々は、任意の完全畳み込みネットワーク(FCN)バックボーンの内部特徴層の上に、接続可能な空間自己アテンションモジュールを作成する。
この注意深い類似性は、セグメンテーション予測と視覚親和性の一貫性を課する新たな正規化損失をもたらす。
論文 参考訳(メタデータ) (2023-12-11T18:42:18Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning Modular Structures That Generalize Out-of-Distribution [1.7034813545878589]
本稿では、O.O.D.の一般化手法について述べる。トレーニングを通じて、複数のトレーニング領域にまたがってよく再利用されるネットワークの機能のみをモデルが保持することを奨励する。
本手法は,2つの相補的ニューロンレベル正規化器とネットワーク上の確率的微分可能なバイナリマスクを組み合わせることで,元のネットワークよりも優れたO.O.D.性能を実現するモジュールサブネットワークを抽出する。
論文 参考訳(メタデータ) (2022-08-07T15:54:19Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。