論文の概要: Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2505.23566v2
- Date: Sun, 01 Jun 2025 07:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.063898
- Title: Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition
- Title(参考訳): Uni-MuMER:手書き数式認識のための視覚言語モデルのマルチタスクファインタニング
- Authors: Yu Li, Jin Jiang, Jianhua Zhu, Shuai Peng, Baole Wei, Yuxuan Zhou, Liangcai Gao,
- Abstract要約: 手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題である
アーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
- 参考スコア(独自算出の注目度): 16.68658893305642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten Mathematical Expression Recognition (HMER) remains a persistent challenge in Optical Character Recognition (OCR) due to the inherent freedom of symbol layout and variability in handwriting styles. Prior methods have faced performance bottlenecks, proposing isolated architectural modifications that are difficult to integrate coherently into a unified framework. Meanwhile, recent advances in pretrained vision-language models (VLMs) have demonstrated strong cross-task generalization, offering a promising foundation for developing unified solutions. In this paper, we introduce Uni-MuMER, which fully fine-tunes a VLM for the HMER task without modifying its architecture, effectively injecting domain-specific knowledge into a generalist framework. Our method integrates three data-driven tasks: Tree-Aware Chain-of-Thought (Tree-CoT) for structured spatial reasoning, Error-Driven Learning (EDL) for reducing confusion among visually similar characters, and Symbol Counting (SC) for improving recognition consistency in long expressions. Experiments on the CROHME and HME100K datasets show that Uni-MuMER achieves new state-of-the-art performance, surpassing the best lightweight specialized model SSAN by 16.31% and the top-performing VLM Gemini2.5-flash by 24.42% in the zero-shot setting. Our datasets, models, and code are open-sourced at: https://github.com/BFlameSwift/Uni-MuMER
- Abstract(参考訳): 手書き数学的表現認識(HMER)は、記号配置と手書きスタイルの可変性に固有の自由があるため、光学的文字認識(OCR)において永続的な課題である。
従来の手法ではパフォーマンスのボトルネックに直面しており、一貫したフレームワークに統合することが難しい独立したアーキテクチャ修正を提案している。
一方、事前学習された視覚言語モデル(VLM)の最近の進歩は、強力なクロスタスクの一般化を示し、統合されたソリューションを開発するための有望な基盤を提供する。
本稿では,HMERタスクのVLMを完全に微調整するUni-MuMERを紹介し,ドメイン固有の知識をジェネラリストフレームワークに効果的に注入する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
CROHMEとHME100Kデータセットの実験により、Uni-MuMERは、最高の軽量特殊モデルSSANを16.31%上回り、最高性能のVLM Gemini2.5-flashを24.42%上回った。
私たちのデータセット、モデル、コードは、https://github.com/BFlameSwift/Uni-MuMERでオープンソース化されています。
関連論文リスト
- UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface [25.898592418636603]
textbfOpen-ended言語インターフェースを通じて、textbfFineの粒度の視覚的知覚タスクをTextbfUnifyするフレームワークである。
オブジェクトレベルの検出、ピクセルレベルのセグメンテーション、イメージレベルの視覚言語タスクを単一のモデルに統合する。
私たちのフレームワークは、きめ細かい認識と視覚言語タスクのギャップを埋め、アーキテクチャ設計とトレーニング戦略を大幅に単純化します。
論文 参考訳(メタデータ) (2025-03-03T09:27:24Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。