論文の概要: Attention based Sequence to Sequence Learning for Machine Translation of
Low Resourced Indic Languages -- A case of Sanskrit to Hindi
- arxiv url: http://arxiv.org/abs/2110.00435v1
- Date: Tue, 7 Sep 2021 04:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-10 11:43:28.519753
- Title: Attention based Sequence to Sequence Learning for Machine Translation of
Low Resourced Indic Languages -- A case of Sanskrit to Hindi
- Title(参考訳): 低資源のindic言語の機械翻訳のための注意に基づくシーケンス学習--サンスクリットからヒンディー語への事例-
- Authors: Vishvajit Bakarola and Jitendra Nasriwala
- Abstract要約: この論文は、10K近いサンプルと178,000個のトークンを持つサンスクリットからヒンディー語バイリンガル並列コーパスの構築を示す。
注意機構に基づく神経翻訳は、人間の評価において88%の精度を達成し、サンスクリットからヒンディー語への翻訳におけるBLEUスコアは0.92である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning techniques are powerful in mimicking humans in a particular set
of problems. They have achieved a remarkable performance in complex learning
tasks. Deep learning inspired Neural Machine Translation (NMT) is a proficient
technique that outperforms traditional machine translation. Performing
machine-aided translation on Indic languages has always been a challenging task
considering their rich and diverse grammar. The neural machine translation has
shown quality results compared to the traditional machine translation
approaches. The fully automatic machine translation becomes problematic when it
comes to low-resourced languages, especially with Sanskrit. This paper presents
attention mechanism based neural machine translation by selectively focusing on
a particular part of language sentences during translation. The work shows the
construction of Sanskrit to Hindi bilingual parallel corpus with nearly 10K
samples and having 178,000 tokens. The neural translation model equipped with
an attention mechanism has been trained on Sanskrit to Hindi parallel corpus.
The approach has shown the significance of attention mechanisms to overcome
long-term dependencies, primarily associated with low resources Indic
languages. The paper shows the attention plots on testing data to demonstrate
the alignment between source and translated words. For the evaluation of the
translated sentences, manual score based human evaluation and automatic
evaluation metric based techniques have been adopted. The attention mechanism
based neural translation has achieved 88% accuracy in human evaluation and a
BLEU score of 0.92 on Sanskrit to Hindi translation.
- Abstract(参考訳): ディープラーニングのテクニックは、特定の問題のセットで人間を模倣するのに強力です。
彼らは複雑な学習タスクで顕著なパフォーマンスを達成した。
deep learning inspired neural machine translation (nmt)は、従来の機械翻訳よりも優れた技術である。
Indic言語での機械支援翻訳の実行は、多様で多様な文法を考えると、常に困難な作業であった。
ニューラルマシン翻訳は、従来の機械翻訳手法に比べて品質が向上している。
完全な自動機械翻訳は、特にサンスクリットにおいて、低リソース言語に関して問題となる。
本稿では,翻訳中の言語文の特定部分に選択的に焦点を合わせ,注意機構に基づくニューラルマシン翻訳を提案する。
この研究は、およそ10kのサンプルと178,000のトークンを持つヒンズー語二言語並列コーパスへのサンスクリットの構築を示している。
注意機構を備えた神経翻訳モデルはサンスクリットからヒンディー語平行コーパスで訓練されている。
このアプローチは、主に低リソースのIndic言語に関連する長期的な依存関係を克服する注意機構の重要性を示している。
本稿は,ソース単語と翻訳単語のアライメントを示すために,テストデータに対する注意プロットを示す。
翻訳文の評価には,マニュアルスコアに基づく人的評価と自動評価基準に基づく手法が採用されている。
注意機構に基づく神経翻訳は、人間の評価において88%の精度を達成し、サンスクリットからヒンディー語への翻訳におけるBLEUスコアは0.92である。
関連論文リスト
- Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Continuous Learning in Neural Machine Translation using Bilingual
Dictionaries [14.058642647656301]
ニューラルマシン翻訳の新たなフレーズを継続的に学習する能力を評価するための評価フレームワークを提案する。
両方の課題に対処することで、新しいまれな単語やフレーズを30%から70%に翻訳する能力を改善することができます。
論文 参考訳(メタデータ) (2021-02-12T14:46:13Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Neural Machine Translation System of Indic Languages -- An Attention
based Approach [0.5139874302398955]
インドでは、ほとんどの言語は先祖の言語であるサンスクリットに由来する。
本稿では,ヒンディー語やグジャラート語などのインド語を効率的に翻訳できるニューラルネットワーク翻訳システム(NMT)を提案する。
論文 参考訳(メタデータ) (2020-02-02T07:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。