論文の概要: MFH: Marrying Frequency Domain with Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2507.00430v1
- Date: Tue, 01 Jul 2025 04:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.336367
- Title: MFH: Marrying Frequency Domain with Handwritten Mathematical Expression Recognition
- Title(参考訳): MFH:手書き数式認識を用いた周波数領域の結婚
- Authors: Huanxin Yang, Qiwen Wang,
- Abstract要約: 手書きの数学的表現認識は、シーケンス予測において複雑な公式構造と文字レイアウトに悩まされる。
本稿では、離散コサイン(DCT)を利用して、周波数領域をHMER(MFH)にマージする方法を提案する。
我々のネットワークは、周波数領域情報の有効性を実証し、一貫した性能向上を示す。
- 参考スコア(独自算出の注目度): 3.3302293148249125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten mathematical expression recognition (HMER) suffers from complex formula structures and character layouts in sequence prediction. In this paper, we incorporate frequency domain analysis into HMER and propose a method that marries frequency domain with HMER (MFH), leveraging the discrete cosine transform (DCT). We emphasize the structural analysis assistance of frequency information for recognizing mathematical formulas. When implemented on various baseline models, our network exhibits a consistent performance enhancement, demonstrating the efficacy of frequency domain information. Experiments show that our MFH-CoMER achieves noteworthy accuracyrates of 61.66%/62.07%/63.72% on the CROHME 2014/2016/2019 test sets. The source code is available at https://github.com/Hryxyhe/MFH.
- Abstract(参考訳): 手書き数式認識(HMER)は、複雑な公式構造と配列予測における文字レイアウトに悩まされている。
本稿では、周波数領域解析をHMERに組み込み、離散コサイン変換(DCT)を活用して、周波数領域とHMER(MFH)を結合する手法を提案する。
数式認識のための周波数情報の構造解析支援を強調した。
各種ベースラインモデルに実装すると、周波数領域情報の有効性を実証し、一貫した性能向上を示す。
MFH-CoMERはCROHME 2014/2016/2019で61.66%/62.07%/63.72%の精度を達成した。
ソースコードはhttps://github.com/Hryxyhe/MFHで入手できる。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - CATCH: Channel-Aware multivariate Time Series Anomaly Detection via Frequency Patching [24.927390742543707]
周波数パッチに基づくフレームワークであるCATCHを紹介する。
本稿では,パッチワイドマスクジェネレータとマスクアテンション機構を備えたChannel Fusion Module (CFM)を提案する。
10の現実世界のデータセットと12の合成データセットの実験は、CATCHが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T05:58:55Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。