論文の概要: Marathi To English Neural Machine Translation With Near Perfect Corpus
And Transformers
- arxiv url: http://arxiv.org/abs/2002.11643v1
- Date: Wed, 26 Feb 2020 17:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 15:10:58.881309
- Title: Marathi To English Neural Machine Translation With Near Perfect Corpus
And Transformers
- Title(参考訳): Marathi、ほぼ完璧なコーパスとトランスフォーマーで英語のニューラルマシン翻訳へ
- Authors: Swapnil Ashok Jadhav
- Abstract要約: Google、Bing、Facebook、Yandexなどは、インド以外の言語に翻訳システムを提供している数少ない企業だ。
本演習では, BERT-tokenizerで訓練した英語翻訳者に対して, 各種ニューラルマシンマラソンを訓練し, 比較した。
TatoebaやWikimediaのオープンデータセットでは,GoogleよりもBLEUスコアが向上しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been very few attempts to benchmark performances of
state-of-the-art algorithms for Neural Machine Translation task on Indian
Languages. Google, Bing, Facebook and Yandex are some of the very few companies
which have built translation systems for few of the Indian Languages. Among
them, translation results from Google are supposed to be better, based on
general inspection. Bing-Translator do not even support Marathi language which
has around 95 million speakers and ranks 15th in the world in terms of combined
primary and secondary speakers. In this exercise, we trained and compared
variety of Neural Machine Marathi to English Translators trained with
BERT-tokenizer by huggingface and various Transformer based architectures using
Facebook's Fairseq platform with limited but almost correct parallel corpus to
achieve better BLEU scores than Google on Tatoeba and Wikimedia open datasets.
- Abstract(参考訳): インド言語におけるニューラルネットワーク翻訳タスクの最先端アルゴリズムのパフォーマンスをベンチマークする試みはほとんどない。
Google、Bing、Facebook、Yandexなどは、インド諸言語に翻訳システムを提供している数少ない企業だ。
その中でも、googleの翻訳結果は一般的な検査に基づいてより良くなるはずだ。
bing-translatorは、約95万人の話者で、世界第1位と第2位の話者の合計で15位であるmarathi言語もサポートしていない。
このエクササイズでは、さまざまなNeural Machine MarathiとBERT-tokenizerでトレーニングされたイングリッシュトランスレータのトレーニングと比較を行い、FacebookのFairseqプラットフォームを使って、さまざまなTransformerベースのアーキテクチャをハグし、ほぼ正しい並列コーパスを使用して、GoogleのTatoebaやWikimediaのオープンデータセットよりも優れたBLEUスコアを達成しました。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Question answering using deep learning in low resource Indian language
Marathi [0.0]
本稿では,読解理解に基づく質問応答システムを構築するためのトランスフォーマーモデルについて検討する。
EMスコアが0.64、F1スコアが0.74のMuRIL多言語モデルでは、マラシデータセット上でモデルを微調整することで、最良の精度を得ることができた。
論文 参考訳(メタデータ) (2023-09-27T16:53:11Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Neural Machine Translation System of Indic Languages -- An Attention
based Approach [0.5139874302398955]
インドでは、ほとんどの言語は先祖の言語であるサンスクリットに由来する。
本稿では,ヒンディー語やグジャラート語などのインド語を効率的に翻訳できるニューラルネットワーク翻訳システム(NMT)を提案する。
論文 参考訳(メタデータ) (2020-02-02T07:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。