論文の概要: Machine Translation of Mathematical Text
- arxiv url: http://arxiv.org/abs/2010.05229v1
- Date: Sun, 11 Oct 2020 11:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:23:53.843617
- Title: Machine Translation of Mathematical Text
- Title(参考訳): 数学的テキストの機械翻訳
- Authors: Aditya Ohri and Tanya Schmah
- Abstract要約: 数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
さらに編集することなくPDFにコンパイルできる文書を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have implemented a machine translation system, the PolyMath Translator,
for LaTeX documents containing mathematical text. The current implementation
translates English LaTeX to French LaTeX, attaining a BLEU score of 53.5 on a
held-out test corpus of mathematical sentences. It produces LaTeX documents
that can be compiled to PDF without further editing. The system first converts
the body of an input LaTeX document into English sentences containing math
tokens, using the pandoc universal document converter to parse LaTeX input. We
have trained a Transformer-based translator model, using OpenNMT, on a combined
corpus containing a small proportion of domain-specific sentences. Our full
system uses both this Transformer model and Google Translate, the latter being
used as a backup to better handle linguistic features that do not appear in our
training dataset. If the Transformer model does not have confidence in its
translation, as determined by a high perplexity score, then we use Google
Translate with a custom glossary. This backup was used 26% of the time on our
test corpus of mathematical sentences. The PolyMath Translator is available as
a web service at www.polymathtrans.ai.
- Abstract(参考訳): 数学的テキストを含むLaTeX文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装では、英語のLaTeXをフランス語のLaTeXに翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
LaTeX文書はPDFにコンパイルでき、編集は不要である。
システムはまず、入力されたLaTeX文書の本体を、パンドックユニバーサル文書変換器を用いて、数学トークンを含む英語の文に変換し、LaTeX入力を解析する。
我々は,opennmtを用いたトランスフォーマーベースの翻訳モデルを,ドメイン特化文のごく一部を含む複合コーパス上で訓練した。
私たちのシステムでは、このトランスフォーマーモデルとgoogle translateの両方を使用しています。後者は、トレーニングデータセットに現れない言語的特徴をよりうまく扱うために、バックアップとして使用されています。
Transformerモデルが高いパープレキシティスコアによって決定されるように、翻訳に自信を持っていない場合、Google Translateをカスタム用語集で使用します。
このバックアップは、数学文のテストコーパスで26%の時間で使用されました。
PolyMath Translatorはwww.polymathtrans.aiでWebサービスとして利用可能である。
関連論文リスト
- TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-07T18:07:15Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Neural Machine Translation for Mathematical Formulae [8.608288231153304]
我々は、あいまいな表現言語とあいまいなコンテンツ言語の間の数学的公式のニューラルネットワーク翻訳の問題に取り組む。
畳み込みシーケンス・ツー・シーケンス・ネットワークはそれぞれ95.1%と90.7%の正確な一致を達成した。
論文 参考訳(メタデータ) (2023-05-25T19:15:06Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Reproducible Science with LaTeX [4.09920839425892]
本稿では,文書から外部ソースコードを実行する手順を提案する。
結果のPortable Document Format (pdf)ファイルに自動的に計算出力が含まれている。
論文 参考訳(メタデータ) (2020-10-04T04:04:07Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。