論文の概要: English to Arabic machine translation of mathematical documents
- arxiv url: http://arxiv.org/abs/2312.03753v1
- Date: Sat, 2 Dec 2023 21:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 02:58:39.966439
- Title: English to Arabic machine translation of mathematical documents
- Title(参考訳): 数学文書の英語からアラビア語への機械翻訳
- Authors: Mustapha Eddahibi and Mohammed Mensouri
- Abstract要約: 本稿では、英語のLATEX数学的文書をアラビア語のLATEXに変換することに焦点を当てる。
提案システムはトランスフォーマーモデルを翻訳システムのコアとして活用する。
アラビア語の数学的 TEX 拡張である RyDArab の統合は、アラビア語の数学的表現の規則に基づく翻訳とともに、翻訳された出力における複雑な数学的記号と方程式の正確なレンダリングに寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is about the development of a machine translation system tailored
specifically for LATEX mathematical documents. The system focuses on
translating English LATEX mathematical documents into Arabic LATEX, catering to
the growing demand for multilingual accessibility in scientific and
mathematical literature. With the vast proliferation of LATEX mathematical
documents the need for an efficient and accurate translation system has become
increasingly essential. This paper addresses the necessity for a robust
translation tool that enables seamless communication and comprehension of
complex mathematical content across language barriers. The proposed system
leverages a Transformer model as the core of the translation system, ensuring
enhanced accuracy and fluency in the translated Arabic LATEX documents.
Furthermore, the integration of RyDArab, an Arabic mathematical TEX extension,
along with a rule-based translator for Arabic mathematical expressions,
contributes to the precise rendering of complex mathematical symbols and
equations in the translated output. The paper discusses the architecture,
methodology, of the developed system, highlighting its efficacy in bridging the
language gap in the domain of mathematical documentation
- Abstract(参考訳): 本稿では,LATEXの数学的文書に特化された機械翻訳システムの開発について述べる。
このシステムは、英語のLATEX数学的文書をアラビア語のLATEXに翻訳することに焦点を当てており、科学と数学の文学における多言語アクセシビリティの需要が高まっている。
LATEXの数学的文書の急増に伴い、効率的かつ正確な翻訳システムの必要性が高まっている。
本稿では,言語障壁を越えた複雑な数学的内容のシームレスなコミュニケーションと理解を可能にする,堅牢な翻訳ツールの必要性に対処する。
提案システムはトランスフォーマーモデルを翻訳システムのコアとして活用し,アラビア語のLATEX文書の精度と流布度を向上させる。
さらに、アラビア語の数学的tex拡張であるrydarabと、アラビア語の数学的表現の規則に基づくトランスレータの統合は、翻訳出力における複雑な数学的記号と方程式の正確なレンダリングに寄与する。
本論文は, 開発システムのアーキテクチャ, 方法論について論じ, 数学的文書の領域における言語ギャップを埋めることの有効性を強調した。
関連論文リスト
- STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing [2.2315518704035595]
STEM-PoM(STEM-PoM)は,大規模言語モデルの数学記号に対する推論能力を評価するためのベンチマークデータセットである。
データセットには変数、定数、演算子、および単位記述子の主属性に分類される2K以上の数学記号が含まれている。
実験により,現状のLLMはテキスト内学習では平均20-60%,微調整では50-60%の精度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-01T06:25:06Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual
Representation Learning [74.60554112841307]
EMMAX: (X)Crosslingual Universalsを学習するためのEM-like Multilingual Pretrainingアルゴリズムを提案する。
EMMAXは、言語間表現学習タスクと、EMフレームワーク内の余分な意味関係予測タスクを統一する。
論文 参考訳(メタデータ) (2023-10-26T08:31:00Z) - Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。
モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。
ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文 参考訳(メタデータ) (2023-10-18T20:10:07Z) - Neural Machine Translation for Mathematical Formulae [8.608288231153304]
我々は、あいまいな表現言語とあいまいなコンテンツ言語の間の数学的公式のニューラルネットワーク翻訳の問題に取り組む。
畳み込みシーケンス・ツー・シーケンス・ネットワークはそれぞれ95.1%と90.7%の正確な一致を達成した。
論文 参考訳(メタデータ) (2023-05-25T19:15:06Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - On the Influence of Machine Translation on Language Origin Obfuscation [0.3437656066916039]
本稿では、広く使われている2つの商用機械翻訳システムの翻訳結果から、ソースコードを検出する能力について分析する。
評価の結果,十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることが示唆された。
論文 参考訳(メタデータ) (2021-06-24T08:33:24Z) - Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
さらに編集することなくPDFにコンパイルできる文書を生成する。
論文 参考訳(メタデータ) (2020-10-11T11:59:40Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。