論文の概要: SemiHMER: Semi-supervised Handwritten Mathematical Expression Recognition using pseudo-labels
- arxiv url: http://arxiv.org/abs/2502.07172v3
- Date: Thu, 20 Feb 2025 01:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 13:23:53.229663
- Title: SemiHMER: Semi-supervised Handwritten Mathematical Expression Recognition using pseudo-labels
- Title(参考訳): SemiHMER:擬似ラベルを用いた半教師付き手書き数式認識
- Authors: Kehua Chen, Haoyang Shen,
- Abstract要約: ラベル付きデータと追加ラベル付きデータの両方を探索し,半教師付き手書き数式認識(HMER)について検討した。
本稿では,二分岐半教師付き学習を導入した新しい一貫性正規化フレームワークであるSemiHMERを提案する。
実験結果から,本研究は大幅な性能向上を実現していることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study semi-supervised Handwritten Mathematical Expression Recognition (HMER) via exploring both labeled data and extra unlabeled data. We propose a novel consistency regularization framework, termed SemiHMER, which introduces dual-branch semi-supervised learning. Specifically, we enforce consistency between the two networks for the same input image. The pseudo-label, generated by one perturbed recognition network, is utilized to supervise the other network using the standard cross-entropy loss. The SemiHMER consistency encourages high similarity between the predictions of the two perturbed networks for the same input image and expands the training data by leveraging unlabeled data with pseudo-labels. We further introduce a weak-to-strong strategy by applying different levels of augmentation to each branch, effectively expanding the training data and enhancing the quality of network training. Additionally, we propose a novel module, the Global Dynamic Counting Module (GDCM), to enhance the performance of the HMER decoder by alleviating recognition inaccuracies in long-distance formula recognition and reducing the occurrence of repeated characters. The experimental results demonstrate that our work achieves significant performance improvements, with an average accuracy increase of 5.47% on CROHME14, 4.87% on CROHME16, and 5.25% on CROHME19, compared to our baselines.
- Abstract(参考訳): 本稿では,ラベル付きデータと追加ラベル付きデータの両方を探索し,半教師付き手書き数式認識(HMER)について検討する。
本稿では,二分岐半教師付き学習を導入した新しい一貫性正規化フレームワークであるSemiHMERを提案する。
具体的には、同じ入力画像に対して、2つのネットワーク間の一貫性を強制する。
1つの摂動認識ネットワークによって生成された擬似ラベルを用いて、標準のクロスエントロピー損失を用いて他のネットワークを監督する。
SemiHMERの一貫性は、同じ入力画像に対する2つの摂動ネットワークの予測と高い類似性を促進し、ラベルのないデータを擬似ラベルで活用してトレーニングデータを拡張する。
さらに、各ブランチに異なるレベルの拡張を適用し、トレーニングデータを効果的に拡張し、ネットワークトレーニングの質を高めることにより、弱い対強戦略を導入する。
さらに,HMERデコーダの性能向上のために,長距離式認識における認識不正確さを軽減し,繰り返し文字の発生を低減する新しいモジュールGDCMを提案する。
その結果, CROHME14では5.47%, CROHME16では4.87%, CROHME19では5.25%の精度向上が得られた。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - AttenScribble: Attentive Similarity Learning for Scribble-Supervised
Medical Image Segmentation [5.8447004333496855]
本稿では,単純かつ効果的なスクリブル教師あり学習フレームワークを提案する。
我々は、任意の完全畳み込みネットワーク(FCN)バックボーンの内部特徴層の上に、接続可能な空間自己アテンションモジュールを作成する。
この注意深い類似性は、セグメンテーション予測と視覚親和性の一貫性を課する新たな正規化損失をもたらす。
論文 参考訳(メタデータ) (2023-12-11T18:42:18Z) - Pseudo Label-Guided Data Fusion and Output Consistency for
Semi-Supervised Medical Image Segmentation [9.93871075239635]
より少ないアノテーションで医用画像のセグメンテーションを行うための平均教師ネットワーク上に構築されたPLGDFフレームワークを提案する。
本稿では,ラベル付きデータとラベルなしデータを組み合わせてデータセットを効果的に拡張する,新しい擬似ラベル利用方式を提案する。
本フレームワークは,最先端の6つの半教師あり学習手法と比較して,優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-17T06:36:43Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - CONVERT:Contrastive Graph Clustering with Reliable Augmentation [110.46658439733106]
信頼性オーグメンテーション(CONVERT)を用いたContrastiVe Graph ClustEringネットワークを提案する。
本手法では,データ拡張を可逆的パーターブ・リカバリネットワークにより処理する。
セマンティクスの信頼性をさらに保証するために、ネットワークを制約する新たなセマンティクス損失が提示される。
論文 参考訳(メタデータ) (2023-08-17T13:07:09Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Progressive Learning with Cross-Window Consistency for Semi-Supervised
Semantic Segmentation [40.00721341952556]
クロスウィンドウ一貫性(CWC)は、ラベルのないデータから補助的な監視を包括的に抽出するのに役立つ。
我々は,大規模ラベルなしデータから弱い制約を抽出し,深層ネットワークを最適化する,新しいCWC駆動のプログレッシブラーニングフレームワークを提案する。
さらに,高一貫性で信頼性の高い擬似ラベルを提供する動的擬似ラベルメモリバンク(DPM)を提案する。
論文 参考訳(メタデータ) (2022-11-22T17:31:43Z) - Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - Learning Modular Structures That Generalize Out-of-Distribution [1.7034813545878589]
本稿では、O.O.D.の一般化手法について述べる。トレーニングを通じて、複数のトレーニング領域にまたがってよく再利用されるネットワークの機能のみをモデルが保持することを奨励する。
本手法は,2つの相補的ニューロンレベル正規化器とネットワーク上の確率的微分可能なバイナリマスクを組み合わせることで,元のネットワークよりも優れたO.O.D.性能を実現するモジュールサブネットワークを抽出する。
論文 参考訳(メタデータ) (2022-08-07T15:54:19Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z) - Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision [56.950950382415925]
クロス擬似監督(CPS)と呼ばれる新しい整合性正規化手法を提案する。
CPS整合性には2つの役割がある: 同じ入力画像に対する2つの摂動ネットワークの予測間の高い類似性を奨励し、擬似ラベル付きラベル付きラベル付きデータを使用することでトレーニングデータを拡張する。
実験の結果,Cityscapes と PASCAL VOC 2012 を用いた半教師付きセグメンテーション性能が得られた。
論文 参考訳(メタデータ) (2021-06-02T15:21:56Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。