論文の概要: Neural Machine Translation for Low-Resourced Indian Languages
- arxiv url: http://arxiv.org/abs/2004.13819v1
- Date: Sun, 19 Apr 2020 17:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 00:13:09.448094
- Title: Neural Machine Translation for Low-Resourced Indian Languages
- Title(参考訳): 低リソースインド言語のためのニューラルマシン翻訳
- Authors: Himanshu Choudhary, Shivansh Rao, Rajesh Rohilla
- Abstract要約: 機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A large number of significant assets are available online in English, which
is frequently translated into native languages to ease the information sharing
among local people who are not much familiar with English. However, manual
translation is a very tedious, costly, and time-taking process. To this end,
machine translation is an effective approach to convert text to a different
language without any human involvement. Neural machine translation (NMT) is one
of the most proficient translation techniques amongst all existing machine
translation systems. In this paper, we have applied NMT on two of the most
morphological rich Indian languages, i.e. English-Tamil and English-Malayalam.
We proposed a novel NMT model using Multihead self-attention along with
pre-trained Byte-Pair-Encoded (BPE) and MultiBPE embeddings to develop an
efficient translation system that overcomes the OOV (Out Of Vocabulary) problem
for low resourced morphological rich Indian languages which do not have much
translation available online. We also collected corpus from different sources,
addressed the issues with these publicly available data and refined them for
further uses. We used the BLEU score for evaluating our system performance.
Experimental results and survey confirmed that our proposed translator (24.34
and 9.78 BLEU score) outperforms Google translator (9.40 and 5.94 BLEU score)
respectively.
- Abstract(参考訳): 多くの重要な資産が英語でオンラインで利用可能であり、英語に詳しくない地元の人々の間での情報共有を容易にするために、ネイティブ言語に翻訳されることが多い。
しかし、手動翻訳は非常に退屈で費用がかかり、時間がかかる。
この目的のために、機械翻訳は人間の関与なしに異なる言語にテキストを変換する効果的なアプローチである。
neural machine translation (nmt) は、既存の機械翻訳システムの中で最も熟練した翻訳技術の一つである。
本稿では,英語・タミル語と英語・マラヤラム語という2つの形態素豊かなインド語にnmtを適用した。
オンライン翻訳があまり提供されていない低資源形態素インド言語に対するOOV(Out Of Vocabulary)問題を克服する効率的な翻訳システムを開発するために,Multihead自己注意(Multihead self-attention)とBPE(Byte-Pair-Encoded)とMultiBPE埋め込み(MultiBPE)を用いた新しいNMTモデルを提案した。
また、さまざまなソースからコーパスを収集し、これらの公開データの問題に対処し、さらなる用途のために洗練しました。
システム性能の評価にbleuスコアを使用しました。
実験の結果,提案する翻訳者(24.34 と 9.78 bleu スコア)がそれぞれ google 翻訳者(9.40 と 5.94 bleu スコア)を上回ることを確認した。
関連論文リスト
- An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Improving English to Sinhala Neural Machine Translation using
Part-of-Speech Tag [1.1470070927586016]
スリランカのほとんどの人は英語を正しく読めない。
現地の人々間で情報を共有するために、英語コンテンツを現地語に翻訳する、という大きな要件がある。
論文 参考訳(メタデータ) (2022-02-17T19:45:50Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Neural Machine Translation System of Indic Languages -- An Attention
based Approach [0.5139874302398955]
インドでは、ほとんどの言語は先祖の言語であるサンスクリットに由来する。
本稿では,ヒンディー語やグジャラート語などのインド語を効率的に翻訳できるニューラルネットワーク翻訳システム(NMT)を提案する。
論文 参考訳(メタデータ) (2020-02-02T07:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。