論文の概要: The first neural machine translation system for the Erzya language
- arxiv url: http://arxiv.org/abs/2209.09368v1
- Date: Mon, 19 Sep 2022 22:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:09:02.379895
- Title: The first neural machine translation system for the Erzya language
- Title(参考訳): Erzya言語のための最初のニューラルマシン翻訳システム
- Authors: David Dale
- Abstract要約: 絶滅危惧言語エルジーア語とロシア語を翻訳するための最初のニューラルマシン翻訳システムを提案する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、翻訳の半数以上が母語話者によって受け入れられていると評価されている。
収集したテキストコーパス、新しい言語識別モデル、Erzya言語に適応した多言語文エンコーダとともに、翻訳モデルをリリースする。
- 参考スコア(独自算出の注目度): 0.0951828574518325
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the first neural machine translation system for translation
between the endangered Erzya language and Russian and the dataset collected by
us to train and evaluate it. The BLEU scores are 17 and 19 for translation to
Erzya and Russian respectively, and more than half of the translations are
rated as acceptable by native speakers. We also adapt our model to translate
between Erzya and 10 other languages, but without additional parallel data, the
quality on these directions remains low. We release the translation models
along with the collected text corpus, a new language identification model, and
a multilingual sentence encoder adapted for the Erzya language. These resources
will be available at https://github.com/slone-nlp/myv-nmt.
- Abstract(参考訳): 絶滅危惧語erzya言語とロシア語の翻訳のための最初のニューラルマシン翻訳システムと,我々が収集したデータセットを用いて学習し,評価する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、半数以上が母語話者に受け入れられていると評価されている。
また、Erzyaと他の10の言語を翻訳するためにモデルを適応していますが、追加の並列データなしでは、これらの方向の質は低いままです。
本稿では,erzya言語に適応した翻訳モデルと,収集されたテキストコーパス,新しい言語識別モデル,多言語文エンコーダについて述べる。
これらのリソースはhttps://github.com/slone-nlp/myv-nmtで入手できる。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Improving English to Sinhala Neural Machine Translation using
Part-of-Speech Tag [1.1470070927586016]
スリランカのほとんどの人は英語を正しく読めない。
現地の人々間で情報を共有するために、英語コンテンツを現地語に翻訳する、という大きな要件がある。
論文 参考訳(メタデータ) (2022-02-17T19:45:50Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Neural Machine Translation model for University Email Application [1.4731169524644787]
ML-> EN, EN-> ML翻訳のための最先端のシーケンス・ツー・シーケンスニューラルネットワークをGoogle Translateと比較した。
Google TranslationのBLEUスコアが低いことは、アプリケーションベースの地域モデルの方が優れていることを示している。
論文 参考訳(メタデータ) (2020-07-20T15:05:16Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。