論文の概要: Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline
- arxiv url: http://arxiv.org/abs/2512.13731v1
- Date: Sun, 14 Dec 2025 06:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.406275
- Title: Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline
- Title(参考訳): 複雑な数学的表現認識:ベンチマーク、大規模データセット、強ベースライン
- Authors: Weikang Bai, Yongkun Du, Yuchen Su, Yazhen Xie, Zhineng Chen,
- Abstract要約: CMER-Benchは、式を3つの難易度(易度、中度度、複雑度)に分類するベンチマークである。
本稿では,MER-17MとCMER-3Mの大規模データセットを提案する。
CMERNetはエンコーダデコーダアーキテクチャ上に構築され、CMER-3Mで訓練された。
- 参考スコア(独自算出の注目度): 19.9700783034645
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mathematical Expression Recognition (MER) has made significant progress in recognizing simple expressions, but the robust recognition of complex mathematical expressions with many tokens and multiple lines remains a formidable challenge. In this paper, we first introduce CMER-Bench, a carefully constructed benchmark that categorizes expressions into three difficulty levels: easy, moderate, and complex. Leveraging CMER-Bench, we conduct a comprehensive evaluation of existing MER models and general-purpose multimodal large language models (MLLMs). The results reveal that while current methods perform well on easy and moderate expressions, their performance degrades significantly when handling complex mathematical expressions, mainly because existing public training datasets are primarily composed of simple samples. In response, we propose MER-17M and CMER-3M that are large-scale datasets emphasizing the recognition of complex mathematical expressions. The datasets provide rich and diverse samples to support the development of accurate and robust complex MER models. Furthermore, to address the challenges posed by the complicated spatial layout of complex expressions, we introduce a novel expression tokenizer, and a new representation called Structured Mathematical Language, which explicitly models the hierarchical and spatial structure of expressions beyond LaTeX format. Based on these, we propose a specialized model named CMERNet, built upon an encoder-decoder architecture and trained on CMER-3M. Experimental results show that CMERNet, with only 125 million parameters, significantly outperforms existing MER models and MLLMs on CMER-Bench.
- Abstract(参考訳): MER(Mathematical Expression Recognition)は、単純な表現の認識において大きな進歩を遂げているが、多くのトークンと複数の行を持つ複雑な数学的表現の堅牢な認識は、依然として困難な課題である。
本稿ではまず,式を3つの難易度(易度,中度度,複雑度)に分類する,精巧に構築されたベンチマークCMER-Benchを紹介する。
CMER-Benchを活用することで,既存のMERモデルと汎用多目的大言語モデル(MLLM)の包括的評価を行う。
その結果,既存の学習データセットは主に単純なサンプルから成り立っているため,複雑な数学的表現を扱う場合,従来の手法は容易で適度な表現でうまく機能するが,その性能は著しく低下することがわかった。
そこで本研究では,MER-17MとCMER-3Mを提案する。
データセットは、正確で堅牢なMERモデルの開発を支援するために、豊富で多様なサンプルを提供する。
さらに,複雑な表現の空間的レイアウトによって生じる課題に対処するために,新しい表現トークン化器と,LaTeXフォーマット以外の表現の階層的・空間的構造を明示的にモデル化した構造化数学言語という新しい表現を導入する。
そこで本研究では,エンコーダデコーダアーキテクチャ上に構築され,CMER-3Mで訓練されたCMERNetという特殊なモデルを提案する。
実験の結果,CMERNetのパラメータはわずか125万であり,CMER-Bench上の既存のMERモデルやMLLMよりも大幅に優れていた。
関連論文リスト
- ColLab: A Collaborative Spatial Progressive Data Engine for Referring Expression Comprehension and Generation [22.83728319715156]
ColLabは、人間の監督なしに完全に自動化されたRECとREGデータ生成を可能にする、協調的な空間的プログレッシブデータエンジンである。
ColLab は REC と REG のアノテーション処理を著しく促進し,生成した表現の質と識別性を改善した。
ICCV 2025 MARS2 Challenge on Multimodal Reasoningにおいて,本フレームワークを部分的に採用した。
論文 参考訳(メタデータ) (2025-09-28T16:21:29Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment [9.952187981270326]
我々はSentiment Cross-Lingual Recognition and Logic Framework (SentiXRL)を提案する。
SentiXRLには2つのモジュールがあり、感情検索拡張モジュールは、歴史的対話と論理的推論を通じて複雑な文脈における感情分類の精度を向上させる。
我々は、複数の標準データセット上でSentiXRLの優位性を検証し、CPEDおよびCH-SIMSの既存モデルよりも優れており、MELD、Emorynlp、IEMOCAPの全体的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:18:26Z) - Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network [0.3749861135832072]
階層的かつ複雑な数式認識(MER)は、数式を複数解釈できるため困難である。
これらの問題に対処するために設計された最初のデータセットである階層的詳細認識データセット(Focused-Focused)を紹介する。
本稿では,階層型サブフォーミュラモジュールを組み込んだ新しいフレームワークである階層型Detail Recognition Network (HDNet)を提案する。
論文 参考訳(メタデータ) (2024-09-18T03:32:25Z) - ChatSR: Multimodal Large Language Models for Scientific Formula Discovery [13.136507215114724]
ChatSRは、知識のある人間の科学者のように振る舞う。
ChatSRは、自然言語のプロンプトに含まれる以前の知識をよく理解し、生成した表現の質を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T09:17:54Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。