論文の概要: Improving English to Sinhala Neural Machine Translation using
Part-of-Speech Tag
- arxiv url: http://arxiv.org/abs/2202.08882v1
- Date: Thu, 17 Feb 2022 19:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 23:41:03.695102
- Title: Improving English to Sinhala Neural Machine Translation using
Part-of-Speech Tag
- Title(参考訳): 部分音声タグによるSinhalaニューラルマシン翻訳の改良
- Authors: Ravinga Perera, Thilakshi Fonseka, Rashmini Naranpanawa, Uthayasanker
Thayasivam
- Abstract要約: スリランカのほとんどの人は英語を正しく読めない。
現地の人々間で情報を共有するために、英語コンテンツを現地語に翻訳する、という大きな要件がある。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Neural Machine Translation (NMT) depends significantly on
the size of the available parallel corpus. Due to this fact, low resource
language pairs demonstrate low translation performance compared to high
resource language pairs. The translation quality further degrades when NMT is
performed for morphologically rich languages. Even though the web contains a
large amount of information, most people in Sri Lanka are unable to read and
understand English properly. Therefore, there is a huge requirement of
translating English content to local languages to share information among
locals. Sinhala language is the primary language in Sri Lanka and building an
NMT system that can produce quality English to Sinhala translations is
difficult due to the syntactic divergence between these two languages under low
resource constraints. Thus, in this research, we explore effective methods of
incorporating Part of Speech (POS) tags to the Transformer input embedding and
positional encoding to further enhance the performance of the baseline English
to Sinhala neural machine translation model.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)の性能は、利用可能な並列コーパスのサイズに大きく依存する。
このため、低リソース言語対は高リソース言語対と比較して低翻訳性能を示す。
形態学的に豊かな言語に対してnmtを行うと翻訳品質はさらに低下する。
ウェブには大量の情報が含まれているが、スリランカのほとんどの人々は英語を正しく読み書きできない。
そのため、地域住民間で情報を共有するために、英語コンテンツを現地語に翻訳する大きな要件が存在する。
シンハラ語はスリランカで主要な言語であり、シンハラ語に英語を翻訳できるnmtシステムを構築するのは、リソースの制約の少ない2つの言語間の構文の相違のため困難である。
そこで本研究では,音声の一部(POS)タグをトランスフォーマーの入力埋め込みと位置エンコーディングに組み込むことにより,Sinhalaニューラルマシン翻訳モデルに対するベースライン英語の性能をさらに向上させる方法について検討する。
関連論文リスト
- Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Extremely low-resource machine translation for closely related languages [0.0]
この研究は、エストニア語とフィンランド語というウラル語族の近縁言語に焦点を当てている。
多言語学習と合成コーパスにより,各言語対の翻訳品質が向上することがわかった。
転送学習と微調整は低リソースの機械翻訳に非常に効果的であり、最良の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:27:06Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Neural Machine Translation System of Indic Languages -- An Attention
based Approach [0.5139874302398955]
インドでは、ほとんどの言語は先祖の言語であるサンスクリットに由来する。
本稿では,ヒンディー語やグジャラート語などのインド語を効率的に翻訳できるニューラルネットワーク翻訳システム(NMT)を提案する。
論文 参考訳(メタデータ) (2020-02-02T07:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。