論文の概要: Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention
- arxiv url: http://arxiv.org/abs/2508.06107v1
- Date: Fri, 08 Aug 2025 08:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.134638
- Title: Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention
- Title(参考訳): Mask & Match: 自己監督された注意力で手書きの数学を認識する学習
- Authors: Shree Mitra, Ritabrata Chakraborty, Nilkanta Sahu,
- Abstract要約: 我々は手書き数式(HMER)の認識のための自己教師型学習フレームワークを提案する。
我々のアプローチは、大域的および局所的なコントラスト的損失の組み合わせを用いて、画像エンコーダを事前訓練することから始まる。
この研究の重要な貢献は、プログレッシブな空間マスキング戦略を用いて訓練された、新しい自己監督型アテンションネットワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recognizing handwritten mathematical expressions (HMER) is a challenging task due to the inherent two-dimensional structure, varying symbol scales, and complex spatial relationships among symbols. In this paper, we present a self-supervised learning (SSL) framework for HMER that eliminates the need for expensive labeled data. Our approach begins by pretraining an image encoder using a combination of global and local contrastive loss, enabling the model to learn both holistic and fine-grained representations. A key contribution of this work is a novel self-supervised attention network, which is trained using a progressive spatial masking strategy. This attention mechanism is designed to learn semantically meaningful focus regions, such as operators, exponents, and nested mathematical notation, without requiring any supervision. The progressive masking curriculum encourages the network to become increasingly robust to missing or occluded visual information, ultimately improving structural understanding. Our complete pipeline consists of (1) self-supervised pretraining of the encoder, (2) self-supervised attention learning, and (3) supervised fine-tuning with a transformer decoder to generate LATEX sequences. Extensive experiments on CROHME benchmarks demonstrate that our method outperforms existing SSL and fully supervised baselines, validating the effectiveness of our progressive attention mechanism in enhancing HMER performance. Our codebase can be found here.
- Abstract(参考訳): 手書きの数学的表現(HMER)の認識は、固有の2次元構造、異なるシンボルスケール、シンボル間の複雑な空間的関係のために難しい課題である。
本稿では,高額なラベル付きデータを必要としない自己教師付き学習(SSL)フレームワークを提案する。
我々のアプローチは、大域的および局所的なコントラスト的損失の組み合わせを用いて、画像エンコーダを事前訓練することから始まり、モデルが全体的およびきめ細かな表現を学習できるようにする。
この研究の重要な貢献は、プログレッシブな空間マスキング戦略を用いて訓練された、新しい自己監督型アテンションネットワークである。
この注意機構は、オペレータ、指数、ネストされた数学的表記などの意味論的に意味のある焦点領域を、監督を必要とせずに学習するように設計されている。
プログレッシブ・マスキングのカリキュラムは、ネットワークが行方不明や隠蔽された視覚情報に対してますます堅牢になり、最終的には構造的理解を改善している。
完全パイプラインは,(1)エンコーダの自己教師型事前学習,(2)自己教師型注意学習,(3)トランスフォーマーデコーダによる教師型微調整によりLATEX配列を生成する。
CROHMEベンチマークの大規模な実験により,提案手法は既存のSSLと完全教師付きベースラインより優れており,HMER性能向上における進行的注意機構の有効性が検証された。
私たちのコードベースはここにある。
関連論文リスト
- Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning [2.713322720372114]
説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。
本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を正確に表現するために,正確な注意マスクを生成するための解釈可能な特徴外的アーキテクチャを提案する。
得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
論文 参考訳(メタデータ) (2025-04-14T10:18:34Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - SemiHMER: Semi-supervised Handwritten Mathematical Expression Recognition using pseudo-labels [0.0]
ラベル付きデータと追加ラベル付きデータの両方を探索し,半教師付き手書き数式認識(HMER)について検討した。
本稿では,二分岐半教師付き学習を導入した新しい一貫性正規化フレームワークであるSemiHMERを提案する。
実験結果から,本研究は大幅な性能向上を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-11T01:39:11Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Investigating Power laws in Deep Representation Learning [4.996066540156903]
本研究では,非ラベルデータセットにおける表現の質を評価するためのフレームワークを提案する。
表現学習に影響を与える3つの重要な属性に対して、電力法則の係数$alpha$を推定する。
特に$alpha$はラベルの知識のない表現から計算可能であり、非ラベル付きデータセットにおける表現の質を評価するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-11T18:11:32Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Structural Deep Clustering Network [45.370272344031285]
本研究では,構造情報を深層クラスタリングに統合する構造深層クラスタリングネットワーク(SDCN)を提案する。
具体的には、オートエンコーダが学習した表現を対応するGCN層に転送するデリバリ演算子を設計する。
このように、低次から高次までの複数のデータ構造は、オートエンコーダによって学習された複数の表現と自然に結合される。
論文 参考訳(メタデータ) (2020-02-05T04:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。