論文の概要: Symbol-Aware Reasoning with Masked Discrete Diffusion for Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2602.03370v1
- Date: Tue, 03 Feb 2026 10:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.396188
- Title: Symbol-Aware Reasoning with Masked Discrete Diffusion for Handwritten Mathematical Expression Recognition
- Title(参考訳): 手書き数式認識のためのマスク付き離散拡散を用いた記号認識
- Authors: Takaya Kawakatsu, Ryo Ishiyama,
- Abstract要約: 手書き数学的表現認識(HMER)は、多様な記号と2次元構造的レイアウトの推論を必要とする。
本稿では,HMERを逐次生成ではなく反復的記号精製として再構成する離散拡散フレームワークを提案する。
MathWritingベンチマークでは、提案は5.56%のCERと60.42%のEMを達成し、強力なトランスフォーマーと商用ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.4010598744735378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Mathematical Expression Recognition (HMER) requires reasoning over diverse symbols and 2D structural layouts, yet autoregressive models struggle with exposure bias and syntactic inconsistency. We present a discrete diffusion framework that reformulates HMER as iterative symbolic refinement instead of sequential generation. Through multi-step remasking, the proposal progressively refines both symbols and structural relations, removing causal dependencies and improving structural consistency. A symbol-aware tokenization and Random-Masking Mutual Learning further enhance syntactic alignment and robustness to handwriting diversity. On the MathWriting benchmark, the proposal achieves 5.56\% CER and 60.42\% EM, outperforming strong Transformer and commercial baselines. Consistent gains on CROHME 2014--2023 demonstrate that discrete diffusion provides a new paradigm for structure-aware visual recognition beyond generative modeling.
- Abstract(参考訳): 手書きの数学的表現認識(HMER)は多様なシンボルと2次元構造的レイアウトの推論を必要とするが、自己回帰モデルは露出バイアスと構文的不整合に悩む。
本稿では,HMERを逐次生成ではなく反復的記号精製として再構成する離散拡散フレームワークを提案する。
マルチステップのリメイキングを通じて、この提案はシンボルと構造的関係を段階的に洗練し、因果依存性を除去し、構造的整合性を改善する。
シンボルを意識したトークン化とランダム・マスキング・ミューチュアル・ラーニングにより、手書きの多様性に対する構文的アライメントとロバスト性をさらに強化する。
MathWritingベンチマークでは、提案は5.56\% CERと60.42\% EMを達成し、強力なTransformerと商用ベースラインを上回っている。
CROHME 2014-2023の連続的な利得は、離散拡散は、生成的モデリングを超えた構造認識の新たなパラダイムを提供することを示している。
関連論文リスト
- Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Discovering Mathematical Equations with Diffusion Language Model [6.384075523245284]
本稿では,連続状態拡散言語モデルに基づくシンボル回帰のための事前学習フレームワークであるDiffuSRを紹介する。
DrouSRは、離散的な数学的シンボルを連続的な潜在空間にマッピングするために、拡散過程内にトレーニング可能な埋め込み層を用いる。
また,拡散型方程式生成器の精度を高めるための効果的な推論戦略を設計する。
論文 参考訳(メタデータ) (2025-09-16T14:53:44Z) - Latent Lexical Projection in Large Language Models: A Novel Approach to Implicit Representation Refinement [0.0]
ラテントレキシカル射影 (LLP) は、構造化された空間からラテント空間への変換を通じて、レキシカル表現を洗練するために導入された。
LLPは既存の言語モデルアーキテクチャに最適化されたプロジェクション機構を統合する。
評価は、パープレキシティの低下とBLEUスコアの上昇を示し、予測精度と流布率の改善を示唆している。
論文 参考訳(メタデータ) (2025-02-03T23:18:53Z) - Systematic Abductive Reasoning via Diverse Relation Representations in Vector-symbolic Architecture [10.27696004820717]
ベクトルシンボリックアーキテクチャ(VSA)における多様な関係表現(Rel-SAR)を持つ体系的帰納的推論モデルを提案する。
記号的推論ポテンシャルを持つ表現を導出するために、様々な種類の原子ベクトルが数値的、周期的、論理的意味論を表すだけでなく、構造化された高次元表現(S)も導入する。
体系的推論のために,これらの関係表現を統合する統一フレームワークにおいて,新しい数値および論理関数を提案し,規則の推論と一般化の実行を行う。
論文 参考訳(メタデータ) (2025-01-21T05:17:08Z) - Fully Distributed, Flexible Compositional Visual Representations via Soft Tensor Products [13.306125510884563]
我々は,構成構造を本質的に分散した柔軟な方法でエンコードする表現形式であるSoft TPRを紹介する。
我々は、ソフトTPRが従来の非絡み合いの代替よりも一貫して優れていることを示す。
これらの知見は、構成構造を表現するための分散的で柔軟なアプローチの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-05T23:47:58Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Semantic Graph Representation Learning for Handwritten Mathematical
Expression Recognition [57.60390958736775]
セマンティック・インタラクション・ラーニング(SIL)の簡易かつ効率的な手法を提案する。
まず,統計的シンボル共起確率に基づく意味グラフを構築する。
次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。
本手法は, CROHMEとHME100Kの両方のデータセットにおいて, 先行技術よりも優れた認識性能を実現する。
論文 参考訳(メタデータ) (2023-08-21T06:23:41Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。