論文の概要: Lesan -- Machine Translation for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2112.08191v1
- Date: Wed, 15 Dec 2021 15:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 16:01:18.790307
- Title: Lesan -- Machine Translation for Low Resource Languages
- Title(参考訳): Lesan - 低リソース言語のための機械翻訳
- Authors: Asmelash Teka Hadgu, Abel Aregawi, Adam Beaudoin
- Abstract要約: 本稿では低リソース言語のためのMTシステムであるLesanを紹介する。
当社のパイプラインは、オンラインおよびオフラインソースを活用することで、低リソースMTに対する重要なボトルネックを解決する。
レザンはティグリニャ語、アムハラ語、英語への翻訳を支援している。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of people around the world can not access content on the Web because
most of the content is not readily available in their language. Machine
translation (MT) systems have the potential to change this for many languages.
Current MT systems provide very accurate results for high resource language
pairs, e.g., German and English. However, for many low resource languages, MT
is still under active research. The key challenge is lack of datasets to build
these systems. We present Lesan, an MT system for low resource languages. Our
pipeline solves the key bottleneck to low resource MT by leveraging online and
offline sources, a custom OCR system for Ethiopic and an automatic alignment
module. The final step in the pipeline is a sequence to sequence model that
takes parallel corpus as input and gives us a translation model. Lesan's
translation model is based on the Transformer architecture. After constructing
a base model, back translation, is used to leverage monolingual corpora.
Currently Lesan supports translation to and from Tigrinya, Amharic and English.
We perform extensive human evaluation and show that Lesan outperforms
state-of-the-art systems such as Google Translate and Microsoft Translator
across all six pairs. Lesan is freely available and has served more than 10
million translations so far. At the moment, there are only 217 Tigrinya and
15,009 Amharic Wikipedia articles. We believe that Lesan will contribute
towards democratizing access to the Web through MT for millions of people.
- Abstract(参考訳): 世界中の何百万人もの人々が、web上のコンテンツにアクセスできない。
機械翻訳(MT)システムは、これを多くの言語で変更する可能性がある。
現在のMTシステムは、例えばドイツ語と英語のような高資源言語対に対して非常に正確な結果を提供する。
しかし、多くの低資源言語では、MTはまだ活発に研究されている。
主な課題は、これらのシステムを構築するためのデータセットの欠如である。
本稿では低リソース言語のためのMTシステムであるLesanを紹介する。
我々のパイプラインは、オンラインおよびオフラインソース、Ethiopic用のカスタムOCRシステム、自動アライメントモジュールを活用することで、低リソースMTのボトルネックを解決する。
パイプラインの最後のステップは、並列コーパスを入力として、翻訳モデルを提供するシーケンスからシーケンスモデルです。
Lesanの翻訳モデルはTransformerアーキテクチャに基づいている。
ベースモデルを構築した後、バック翻訳は単言語コーパスを活用するために使用される。
現在、レサンはティグリニャ語、アムハラ語、英語への翻訳を支援している。
われわれは、lesanがgoogle translateやmicrosoft translatorのような最先端のシステムを6つのペアで上回っていることを示す。
Lesanは無料で提供されており、これまでに1000万以上の翻訳を提供している。
現在、217のtigrinyaと15,009のamharic wikipediaの記事しかない。
私たちはLesanが、何百万人もの人々のMTを通じてWebへのアクセスを民主化するために貢献すると考えています。
関連論文リスト
- An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - A Benchmark for Learning to Translate a New Language from One Grammar
Book [41.1108119653453]
MTOBは英語とカラマン語を翻訳するためのベンチマークである。
モデルは、人間の読みやすい文法説明書から言語を学ぶように求めている。
現状のLLMを用いたベースラインは有望であるが,人間の性能には劣っていることを示す。
論文 参考訳(メタデータ) (2023-09-28T16:32:28Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。