論文の概要: TeXBLEU: Automatic Metric for Evaluate LaTeX Format
- arxiv url: http://arxiv.org/abs/2409.06639v3
- Date: Fri, 13 Sep 2024 04:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 11:48:15.926216
- Title: TeXBLEU: Automatic Metric for Evaluate LaTeX Format
- Title(参考訳): TeXBLEU:LaTeXフォーマット評価のための自動メトリック
- Authors: Kyudan Jung, Nam-Joon Kim, Hyongon Ryu, Sieun Hyeon, Seung-jun Lee, Hyeok-jae Lee,
- Abstract要約: 我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
- 参考スコア(独自算出の注目度): 4.337656290539519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LaTeX is suitable for creating specially formatted documents in science, technology, mathematics, and computer science. Although the use of mathematical expressions in LaTeX format along with language models is increasing, there are no proper evaluation matrices to evaluate them. In this study, we propose TeXBLEU, a metric for evaluating mathematical expressions in the LaTeX format built on the n-gram-based BLEU metric widely used in translation tasks. The proposed TeXBLEU consists of a predefined tokenizer trained on the arXiv paper dataset and a fine-tuned embedding model with positional encoding. The TeXBLEU score was calculated by replacing BLUE's modified precision score with the similarity of n-gram-based tokens. TeXBLEU showed improvements of 86\%, 121\%, and 610\% over traditional evaluation metrics, such as BLEU, sacreBLEU, and Rouge, respectively, on the MathBridge dataset with 1,000 data points. The code is available at https://github.com/KyuDan1/TeXBLEU.
- Abstract(参考訳): LaTeXは、科学、技術、数学、計算機科学で特別なフォーマットの文書を作成するのに適している。
言語モデルとともにLaTeX形式での数学的表現の利用が増加しているが、評価する適切な評価行列は存在しない。
本研究では,n-gram-based BLEU で構築された LaTeX 形式の数学的表現を評価するための計量である TeXBLEU を提案する。
提案したTeXBLEUは、arXiv紙データセットでトレーニングされた事前定義されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
TeXBLEUスコアは、BLUEの修正精度スコアをn-gramベースのトークンの類似性に置き換えることで計算された。
TeXBLEUは、1,000のデータポイントを持つMathBridgeデータセット上で、それぞれBLEU、S sacreBLEU、Rurgeといった従来の評価指標よりも86\%、121\%、610\%の改善を示した。
コードはhttps://github.com/KyuDan1/TeXBLEUで公開されている。
関連論文リスト
- Fine-Tuning BERTs for Definition Extraction from Mathematical Text [0.0]
定義抽出」を課題とした3つの事前学習BERTモデルを微調整した。
これは二項分類問題として示され、文が数学的項の定義を含むか、そうでないかのいずれかである。
その結果,高性能なSentence-BERTトランスモデルが全体の精度,リコール,精度の指標に基づいて最適に動作していることが判明した。
論文 参考訳(メタデータ) (2024-06-19T20:47:23Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale
Pretraining Corpus for Math [52.66190891388847]
約950億のトークンからなる多様で高品質な数学中心コーパスであるtextscMathPileを紹介します。
精巧なデータ収集と処理には、複雑な事前処理が含まれていました。
われわれのtextscMathPileは、言語モデルの数学的推論能力を高めるのに役立つことを願っている。
論文 参考訳(メタデータ) (2023-12-28T16:55:40Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - A Transformer-based Math Language Model for Handwritten Math Expression
Recognition [7.202733269706245]
数学の記号は、ドットやコマ、0、O、oなどの書体で非常によく似ている。
本稿ではトランスフォーマーに基づく数学言語モデル(TMLM)を提案する。
TMLMは4.42の難易度を達成し、従来の数学言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-11T03:03:48Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z) - Disambiguating Symbolic Expressions in Informal Documents [2.423990103106667]
約33,000項目のデータセットを提示します。
arxiv.orgから得られたソースに予め訓練されたトランスフォーマー言語モデルを用いた方法論を記述する。
我々は,シンボリック表現の構文と意味を考慮に入れて,複数の専用手法を用いてモデルを評価する。
論文 参考訳(メタデータ) (2021-01-25T10:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。