論文の概要: ChrEn: Cherokee-English Machine Translation for Endangered Language
Revitalization
- arxiv url: http://arxiv.org/abs/2010.04791v1
- Date: Fri, 9 Oct 2020 20:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:21:45.678210
- Title: ChrEn: Cherokee-English Machine Translation for Endangered Language
Revitalization
- Title(参考訳): ChrEn: 絶滅危惧言語再生のためのチェロキー英語機械翻訳
- Authors: Shiyue Zhang, Benjamin Frey, Mohit Bansal
- Abstract要約: チェロキー語(英: Cherokee)は、チェロキー族によって話される言語である。
チェロキー語話者は世界で約2,000人しか残っていない。
- 参考スコア(独自算出の注目度): 91.96528006301654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cherokee is a highly endangered Native American language spoken by the
Cherokee people. The Cherokee culture is deeply embedded in its language.
However, there are approximately only 2,000 fluent first language Cherokee
speakers remaining in the world, and the number is declining every year. To
help save this endangered language, we introduce ChrEn, a Cherokee-English
parallel dataset, to facilitate machine translation research between Cherokee
and English. Compared to some popular machine translation language pairs, ChrEn
is extremely low-resource, only containing 14k sentence pairs in total. We
split our parallel data in ways that facilitate both in-domain and
out-of-domain evaluation. We also collect 5k Cherokee monolingual data to
enable semi-supervised learning. Besides these datasets, we propose several
Cherokee-English and English-Cherokee machine translation systems. We compare
SMT (phrase-based) versus NMT (RNN-based and Transformer-based) systems;
supervised versus semi-supervised (via language model, back-translation, and
BERT/Multilingual-BERT) methods; as well as transfer learning versus
multilingual joint training with 4 other languages. Our best results are
15.8/12.7 BLEU for in-domain and 6.5/5.0 BLEU for out-of-domain Chr-En/EnChr
translations, respectively, and we hope that our dataset and systems will
encourage future work by the community for Cherokee language revitalization.
Our data, code, and demo will be publicly available at
https://github.com/ZhangShiyue/ChrEn
- Abstract(参考訳): チェロキー語(英: Cherokee)は、チェロキー族によって話される言語である。
チェロキー文化はその言語に深く埋め込まれている。
しかし、世界ではチェロキー語話者が約2,000人しか残っておらず、毎年減少している。
この絶滅危惧言語を救うために、チェロキーと英語の機械翻訳研究を容易にするために、チェロキーと英語の並列データセットであるchrenを紹介する。
いくつかの一般的な機械翻訳言語と比較すると、ChrEnは非常に低リソースであり、総文数は14kである。
並列データをドメイン内とドメイン外の両方の評価を容易にする方法で分割します。
半教師付き学習を可能にするため、5kチェロキー単言語データも収集した。
これらのデータセットに加えて、チェロキー語・英語・チェロキー語機械翻訳システムを提案する。
SMT(フレーズベース)とNMT(RNNベースとTransformerベース)、教師付き対半教師付き(言語モデル、バックトランスレーション、BERT/Multilingual-BERT)、他4言語との多言語共同学習などを比較した。
ドメイン内15.8/12.7 BLEUとドメイン外のChr-En/EnChr翻訳6.5/5.0 BLEUが最適です。
私たちのデータ、コード、デモはhttps://github.com/ZhangShiyue/ChrEnで公開されます。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - How can NLP Help Revitalize Endangered Languages? A Case Study and
Roadmap for the Cherokee Language [91.79339725967073]
世界で話されている言語の43%以上が危険にさらされている。
本研究では,NLPが絶滅危惧言語の再活性化にどう役立つかについて議論する。
私たちは、深刻な絶滅危惧言語であるチェロキーをケーススタディとして捉えています。
論文 参考訳(メタデータ) (2022-04-25T18:25:57Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。