論文の概要: Urdu-English Machine Transliteration using Neural Networks
- arxiv url: http://arxiv.org/abs/2001.05296v1
- Date: Sun, 12 Jan 2020 17:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:39:31.513400
- Title: Urdu-English Machine Transliteration using Neural Networks
- Title(参考訳): ニューラルネットワークを用いたウルドゥー英語機械音訳
- Authors: Usman Mohy ud Din
- Abstract要約: 本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation has gained much attention in recent years. It is a
sub-field of computational linguistic which focus on translating text from one
language to other language. Among different translation techniques, neural
network currently leading the domain with its capabilities of providing a
single large neural network with attention mechanism, sequence-to-sequence and
long-short term modelling. Despite significant progress in domain of machine
translation, translation of out-of-vocabulary words(OOV) which include
technical terms, named-entities, foreign words are still a challenge for
current state-of-art translation systems, and this situation becomes even worse
while translating between low resource languages or languages having different
structures. Due to morphological richness of a language, a word may have
different meninges in different context. In such scenarios, translation of word
is not only enough in order provide the correct/quality translation.
Transliteration is a way to consider the context of word/sentence during
translation. For low resource language like Urdu, it is very difficult to
have/find parallel corpus for transliteration which is large enough to train
the system. In this work, we presented transliteration technique based on
Expectation Maximization (EM) which is un-supervised and language independent.
Systems learns the pattern and out-of-vocabulary (OOV) words from parallel
corpus and there is no need to train it on transliteration corpus explicitly.
This approach is tested on three models of statistical machine translation
(SMT) which include phrasebased, hierarchical phrase-based and factor based
models and two models of neural machine translation which include LSTM and
transformer model.
- Abstract(参考訳): 近年は機械翻訳が注目されている。
これは、ある言語から他の言語へのテキストの翻訳に焦点を当てた、計算言語学のサブフィールドである。
さまざまな翻訳技術の中で、現在ニューラルネットワークは、注意のメカニズム、シーケンスツーシーケンス、長期のモデリングを備えた単一の大きなニューラルネットワークを提供することで、ドメインをリードしている。
機械翻訳分野の著しい進歩にもかかわらず、専門用語を含む語彙外語(oov)の翻訳、名前付き文字を含む外国語は、現在の最先端の翻訳システムにとって依然として課題であり、低資源言語や異なる構造を持つ言語間の翻訳において、状況はさらに悪化する。
言語の形態的豊かさのため、単語は異なる文脈で異なる髄を持つことがある。
このようなシナリオでは、単語の翻訳は正しい/品質の翻訳を提供するのに十分ではない。
翻訳は、翻訳中の単語/文の文脈を考える方法である。
urduのような低リソース言語の場合、システムのトレーニングに十分な大きさの並列コーパスを持つ/探すのは非常に困難である。
本研究では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは並列コーパスからパターンと外語彙(OOV)の単語を学習し、文字コーパスで明示的にトレーニングする必要はない。
このアプローチは、フレーズベース、階層的フレーズベースおよび因子ベースモデルとLSTMとトランスフォーマーモデルを含む2つのニューラルマシン翻訳モデルを含む統計機械翻訳(SMT)の3つのモデルで検証される。
関連論文リスト
- Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Extended Parallel Corpus for Amharic-English Machine Translation [0.0]
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2021-04-08T06:51:08Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。