論文の概要: MathReader : Text-to-Speech for Mathematical Documents
- arxiv url: http://arxiv.org/abs/2501.07088v2
- Date: Sun, 19 Jan 2025 06:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:15:00.158803
- Title: MathReader : Text-to-Speech for Mathematical Documents
- Title(参考訳): MathReader : 数学的文書のためのテキストから音声への変換
- Authors: Sieun Hyeon, Kyudan Jung, Nam-Joon Kim, Hyun Gon Ryu, Jaeyoung Do,
- Abstract要約: 我々は、微調整されたT5モデルであるOCRとTSを効果的に統合するMathReaderを提案する。
MathReaderはMicrosoft Edgeに比べてWERを0.510から0.281に、Adobe Acrobatと比べて0.617から0.281に削減した。
これは、文書を聴きたい、特に視覚障害者が直面する不便さを軽減するのに大いに貢献する。
- 参考スコア(独自算出の注目度): 2.8522108187031834
- License:
- Abstract: TTS (Text-to-Speech) document reader from Microsoft, Adobe, Apple, and OpenAI have been serviced worldwide. They provide relatively good TTS results for general plain text, but sometimes skip contents or provide unsatisfactory results for mathematical expressions. This is because most modern academic papers are written in LaTeX, and when LaTeX formulas are compiled, they are rendered as distinctive text forms within the document. However, traditional TTS document readers output only the text as it is recognized, without considering the mathematical meaning of the formulas. To address this issue, we propose MathReader, which effectively integrates OCR, a fine-tuned T5 model, and TTS. MathReader demonstrated a lower Word Error Rate (WER) than existing TTS document readers, such as Microsoft Edge and Adobe Acrobat, when processing documents containing mathematical formulas. MathReader reduced the WER from 0.510 to 0.281 compared to Microsoft Edge, and from 0.617 to 0.281 compared to Adobe Acrobat. This will significantly contribute to alleviating the inconvenience faced by users who want to listen to documents, especially those who are visually impaired. The code is available at https://github.com/hyeonsieun/MathReader.
- Abstract(参考訳): Microsoft、Adobe、Apple、OpenAIのTS(Text-to-Speech)ドキュメントリーダーが世界中で提供されている。
一般的な平文に対して比較的優れたTS結果を提供するが、時には内容をスキップしたり、数学的表現に対して不満足な結果を与える。
これは、ほとんどの近代学術論文がLaTeXで書かれており、LaTeX式がコンパイルされると、文書内で特有のテキスト形式として表現されるためである。
しかし、従来のTS文書リーダーは、公式の数学的意味を考慮せずに、認識されたテキストのみを出力する。
この問題に対処するため,我々は,微調整T5モデルであるOCRとTSを効果的に統合したMathReaderを提案する。
MathReaderは、数学式を含む文書を処理する際に、Microsoft EdgeやAdobe Acrobatのような既存のTSドキュメントリーダーよりもワードエラー率(WER)が低いことを示した。
MathReaderはMicrosoft Edgeに比べてWERを0.510から0.281に、Adobe Acrobatと比べて0.617から0.281に削減した。
これは、文書を聴きたい、特に視覚障害者が直面する不便さを軽減するのに大いに貢献する。
コードはhttps://github.com/hyeonsieun/MathReader.comで入手できる。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文 参考訳(メタデータ) (2024-09-21T17:18:49Z) - AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T06:06:34Z) - TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-07T18:07:15Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - TexSmart: A Text Understanding System for Fine-Grained NER and Enhanced
Semantic Analysis [61.28407236720969]
本手法では,詳細な名前付きエンティティ認識(NER)とセマンティック分析機能強化をサポートするテキスト理解システムであるTexSmartを紹介する。
TexSmartにはユニークな機能があります。
まず、TexSmartのNER関数は1000以上のエンティティタイプをサポートし、他のほとんどの公開ツールは、通常、数十のエンティティタイプをサポートする。
第2に、TexSmartはセマンティック拡張やディープセマンティック表現のような新しいセマンティック分析機能を導入し、ほとんどの以前のシステムにはない。
論文 参考訳(メタデータ) (2020-12-31T14:58:01Z) - Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
さらに編集することなくPDFにコンパイルできる文書を生成する。
論文 参考訳(メタデータ) (2020-10-11T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。