論文の概要: ChrEn: Cherokee-English Machine Translation for Endangered Language
Revitalization
- arxiv url: http://arxiv.org/abs/2010.04791v1
- Date: Fri, 9 Oct 2020 20:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:21:45.678210
- Title: ChrEn: Cherokee-English Machine Translation for Endangered Language
Revitalization
- Title(参考訳): ChrEn: 絶滅危惧言語再生のためのチェロキー英語機械翻訳
- Authors: Shiyue Zhang, Benjamin Frey, Mohit Bansal
- Abstract要約: チェロキー語(英: Cherokee)は、チェロキー族によって話される言語である。
チェロキー語話者は世界で約2,000人しか残っていない。
- 参考スコア(独自算出の注目度): 91.96528006301654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cherokee is a highly endangered Native American language spoken by the
Cherokee people. The Cherokee culture is deeply embedded in its language.
However, there are approximately only 2,000 fluent first language Cherokee
speakers remaining in the world, and the number is declining every year. To
help save this endangered language, we introduce ChrEn, a Cherokee-English
parallel dataset, to facilitate machine translation research between Cherokee
and English. Compared to some popular machine translation language pairs, ChrEn
is extremely low-resource, only containing 14k sentence pairs in total. We
split our parallel data in ways that facilitate both in-domain and
out-of-domain evaluation. We also collect 5k Cherokee monolingual data to
enable semi-supervised learning. Besides these datasets, we propose several
Cherokee-English and English-Cherokee machine translation systems. We compare
SMT (phrase-based) versus NMT (RNN-based and Transformer-based) systems;
supervised versus semi-supervised (via language model, back-translation, and
BERT/Multilingual-BERT) methods; as well as transfer learning versus
multilingual joint training with 4 other languages. Our best results are
15.8/12.7 BLEU for in-domain and 6.5/5.0 BLEU for out-of-domain Chr-En/EnChr
translations, respectively, and we hope that our dataset and systems will
encourage future work by the community for Cherokee language revitalization.
Our data, code, and demo will be publicly available at
https://github.com/ZhangShiyue/ChrEn
- Abstract(参考訳): チェロキー語(英: Cherokee)は、チェロキー族によって話される言語である。
チェロキー文化はその言語に深く埋め込まれている。
しかし、世界ではチェロキー語話者が約2,000人しか残っておらず、毎年減少している。
この絶滅危惧言語を救うために、チェロキーと英語の機械翻訳研究を容易にするために、チェロキーと英語の並列データセットであるchrenを紹介する。
いくつかの一般的な機械翻訳言語と比較すると、ChrEnは非常に低リソースであり、総文数は14kである。
並列データをドメイン内とドメイン外の両方の評価を容易にする方法で分割します。
半教師付き学習を可能にするため、5kチェロキー単言語データも収集した。
これらのデータセットに加えて、チェロキー語・英語・チェロキー語機械翻訳システムを提案する。
SMT(フレーズベース)とNMT(RNNベースとTransformerベース)、教師付き対半教師付き(言語モデル、バックトランスレーション、BERT/Multilingual-BERT)、他4言語との多言語共同学習などを比較した。
ドメイン内15.8/12.7 BLEUとドメイン外のChr-En/EnChr翻訳6.5/5.0 BLEUが最適です。
私たちのデータ、コード、デモはhttps://github.com/ZhangShiyue/ChrEnで公開されます。
関連論文リスト
- Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects [0.0]
バントゥー語族に属する4つの言語や方言のグループであるComorianのためのNLP技術の先駆者を目指しています。
我々のアプローチは、人間が母国語と異なる言語をほとんど、あるいは全く使わずに理解できれば、このプロセスを機械でモデル化することは、完全に可能であるという仮説に動機付けられています。
論文 参考訳(メタデータ) (2024-12-09T22:47:41Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。