論文の概要: The Return of Structural Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2508.19773v1
- Date: Wed, 27 Aug 2025 10:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.600789
- Title: The Return of Structural Handwritten Mathematical Expression Recognition
- Title(参考訳): 構造的手書き数式認識の復活
- Authors: Jakob Seitz, Tobias Lengfeld, Radu Timofte,
- Abstract要約: 手書き数学的表現認識は教育技術の基礎となっている。
大規模な言語モデルを持つ現代のエンコーダ・デコーダアーキテクチャは、世代ごとに優れているが、明示的なシンボルとトレースのアライメントは欠如している。
本稿では,2つの革新を伴う構造認識手法を提案する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten Mathematical Expression Recognition is foundational for educational technologies, enabling applications like digital note-taking and automated grading. While modern encoder-decoder architectures with large language models excel at LaTeX generation, they lack explicit symbol-to-trace alignment, a critical limitation for error analysis, interpretability, and spatially aware interactive applications requiring selective content updates. This paper introduces a structural recognition approach with two innovations: 1 an automatic annotation system that uses a neural network to map LaTeX equations to raw traces, automatically generating annotations for symbol segmentation, classification, and spatial relations, and 2 a modular structural recognition system that independently optimizes segmentation, classification, and relation prediction. By leveraging a dataset enriched with structural annotations from our auto-labeling system, the proposed recognition system combines graph-based trace sorting, a hybrid convolutional-recurrent network, and transformer-based correction to achieve competitive performance on the CROHME-2023 benchmark. Crucially, our structural recognition system generates a complete graph structure that directly links handwritten traces to predicted symbols, enabling transparent error analysis and interpretable outputs.
- Abstract(参考訳): 手書きの数学的表現認識は教育技術の基礎であり、デジタルノートテイクや自動階調などの応用を可能にする。
現代のエンコーダ/デコーダアーキテクチャはLaTeX生成時に優れた言語モデルを持つが、明示的なシンボルとトレースのアライメント、エラー解析の限界、解釈可能性、空間的に認識されるインタラクティブなアプリケーションには欠けていた。
本稿では,ニューラルネットワークを用いてLaTeX方程式を生のトレースにマッピングし,シンボルのセグメンテーション,分類,空間関係のアノテーションを自動的に生成する自動アノテーションシステムと,独立にセグメンテーション,分類,関係予測を最適化するモジュール型構造認識システムと,2つのイノベーションによる構造認識手法を提案する。
自動ラベルシステムから構造アノテーションを付加したデータセットを活用することで,グラフベースのトレースソート,ハイブリッド畳み込みリカレントネットワーク,変換器ベースの補正を組み合わせ,CROHME-2023ベンチマークの競合性能を実現する。
重要なことに,我々の構造認識システムは,手書きのトレースを予測記号に直接リンクする完全なグラフ構造を生成し,透過的な誤り解析と解釈可能な出力を可能にする。
関連論文リスト
- Local and Global Graph Modeling with Edge-weighted Graph Attention Network for Handwritten Mathematical Expression Recognition [3.419173524128023]
エッジ重み付きグラフ注意機構(EGAT)を用いたエンドツーエンドモデルを導入し,ノードとエッジの同時分類を行う。
また,局所(LGM)情報とグローバル(GGM)情報の両方に対して,ストロークレベルのグラフモデリング手法を提案する。
本システムは,記号検出,関係分類,表現レベルの認識において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-24T08:59:27Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - A Transformer-based Approach for Arabic Offline Handwritten Text
Recognition [0.0]
オフラインのアラビア文字を認識できるアーキテクチャを2つ導入する。
私たちのアプローチは言語依存をモデル化することができ、注意機構のみに依存するので、より並列化可能で、より複雑ではありません。
アラビアKHATTデータセットの評価は,提案手法が現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-27T17:51:52Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive
Masking and Trainable Corruption [0.76146285961466]
グラフ表現学習のための新しいオートエンコーダモデルを提案する。
このモデルには階層型適応マスキング機構が組み込まれ,トレーニングの難易度を漸進的に向上させる。
提案手法が最先端のグラフ表現学習モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-28T02:43:54Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。