論文の概要: CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation
- arxiv url: http://arxiv.org/abs/2409.03643v1
- Date: Thu, 5 Sep 2024 16:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:03:34.038689
- Title: CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation
- Title(参考訳): CDM: 公正かつ正確なフォーミュラ認識評価のための信頼性基準
- Authors: Bin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He,
- Abstract要約: 数式認識は、複雑な構造と数学的表現の様々な表記が原因で重要な課題を呈している。
ラテックスレベルのメトリクススコアではなく画像レベルのスコアを設計することで,評価対象性を確保することを目的としたキャラクタ検出マッチング(CDM)メトリクスを提案する。
このような空間認識・文字マッチング手法は、以前のBLEUやEdit Distanceのメトリクスよりも正確で公平な評価を提供する。
- 参考スコア(独自算出の注目度): 15.164514320065564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Formula recognition presents significant challenges due to the complicated structure and varied notation of mathematical expressions. Despite continuous advancements in formula recognition models, the evaluation metrics employed by these models, such as BLEU and Edit Distance, still exhibit notable limitations. They overlook the fact that the same formula has diverse representations and is highly sensitive to the distribution of training data, thereby causing the unfairness in formula recognition evaluation. To this end, we propose a Character Detection Matching (CDM) metric, ensuring the evaluation objectivity by designing a image-level rather than LaTex-level metric score. Specifically, CDM renders both the model-predicted LaTeX and the ground-truth LaTeX formulas into image-formatted formulas, then employs visual feature extraction and localization techniques for precise character-level matching, incorporating spatial position information. Such a spatially-aware and character-matching method offers a more accurate and equitable evaluation compared with previous BLEU and Edit Distance metrics that rely solely on text-based character matching. Experimentally, we evaluated various formula recognition models using CDM, BLEU, and ExpRate metrics. Their results demonstrate that the CDM aligns more closely with human evaluation standards and provides a fairer comparison across different models by eliminating discrepancies caused by diverse formula representations.
- Abstract(参考訳): 数式認識は、複雑な構造と数学的表現の様々な表記が原因で重要な課題を呈している。
公式認識モデルの継続的な進歩にもかかわらず、BLEUやEdit Distanceのようなこれらのモデルで使用される評価指標は、依然として顕著な限界を示している。
彼らは、同じ公式が多種多様な表現を持ち、訓練データの分布に非常に敏感であるという事実を軽視し、公式認識評価における不公平を生じさせる。
そこで本研究では,LaTexレベルのメトリクススコアではなく,画像レベルを設計することで,評価の客観性を確保できるキャラクタ検出マッチング(CDM)メトリクスを提案する。
具体的には、CDMはモデル予測されたLaTeXと基底構造LaTeXの2つの公式を画像整形式に描画し、視覚的特徴抽出と局所化技術を用いて正確な文字レベルのマッチングを行い、空間的位置情報を組み込む。
このような空間認識と文字マッチングは、テキストベースの文字マッチングのみに依存する以前のBLEUやEdit Distanceのメトリクスと比較して、より正確で公平な評価を提供する。
実験により, CDM, BLEU, ExpRate測定値を用いて各種式認識モデルの評価を行った。
これらの結果は、CDMが人間の評価基準とより緊密に整合し、多種多様な公式表現による相違を排除し、異なるモデル間でより公平な比較を行うことを示した。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Quantifying Behavioural Distance Between Mathematical Expressions [0.0]
そこで本稿では,類似した誤りを伴って表現をクラスタリングする行動距離(BED)の尺度を提案し,実装する。
また,BEDは,記号回帰のための探索空間における誤り景観の滑らかさを著しく改善することを示した。
論文 参考訳(メタデータ) (2024-08-21T10:48:04Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文 参考訳(メタデータ) (2024-05-15T02:03:44Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Improving Text Generation Evaluation with Batch Centering and Tempered
Word Mover Distance [24.49032191669509]
類似度指標の符号化表現を改善するための2つの手法を提案する。
さまざまなBERTバックボーンの学習指標について結果を示し、複数のベンチマークでヒトのレーティングとアート相関の状態を達成した。
論文 参考訳(メタデータ) (2020-10-13T03:46:25Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。