論文の概要: Central Yup'ik and Machine Translation of Low-Resource Polysynthetic
Languages
- arxiv url: http://arxiv.org/abs/2009.04087v1
- Date: Wed, 9 Sep 2020 03:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 11:40:27.856777
- Title: Central Yup'ik and Machine Translation of Low-Resource Polysynthetic
Languages
- Title(参考訳): 低リソース多合成言語の中央ユプイクと機械翻訳
- Authors: Christopher Liu, Laura Domin\'e, Kevin Chavez, Richard Socher
- Abstract要約: ユプシク語(Yup'ik language)は、主にアラスカ南西部に住む約8,000人の人々によって話される合成言語である。
我々は、Yup'ikと英語の並列テキストコーパスをコンパイルし、文法規則に基づくYup'ikのモルフォロジーを開発した。
我々は、Yup'ik入力を英語に翻訳するために、注意を向けてSeq2seqニューラルマシン翻訳モデルを訓練した。
- 参考スコア(独自算出の注目度): 42.3635848780518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation tools do not yet exist for the Yup'ik language, a
polysynthetic language spoken by around 8,000 people who live primarily in
Southwest Alaska. We compiled a parallel text corpus for Yup'ik and English and
developed a morphological parser for Yup'ik based on grammar rules. We trained
a seq2seq neural machine translation model with attention to translate Yup'ik
input into English. We then compared the influence of different tokenization
methods, namely rule-based, unsupervised (byte pair encoding), and unsupervised
morphological (Morfessor) parsing, on BLEU score accuracy for Yup'ik to English
translation. We find that using tokenized input increases the translation
accuracy compared to that of unparsed input. Although overall Morfessor did
best with a vocabulary size of 30k, our first experiments show that BPE
performed best with a reduced vocabulary size.
- Abstract(参考訳): ユプシク語(Yup'ik language)は、主にアラスカ南西部に住む約8,000人の人々によって話される合成言語である。
yup'ikと英語の並列テキストコーパスをコンパイルし,文法規則に基づいた形式的パーサを開発した。
我々は、yup'ik入力を英語に翻訳するために、seq2seqニューラルネットワーク翻訳モデルを訓練した。
次に,ルールベース,教師なし(バイトペアエンコーディング),教師なし形態素解析(モーフェソル)の異なるトークン化手法が,ユプイク語から英語への翻訳におけるbleuスコア精度に与える影響を比較した。
トークン化入力を用いることで,未解析入力と比較して翻訳精度が向上することがわかった。
全体的なMorfessorの語彙サイズは30kであったが,最初の実験ではBPEの語彙サイズが小さくなった。
関連論文リスト
- Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Finetuning a Kalaallisut-English machine translation system using
web-crawled data [6.85316573653194]
西グリーンランド語(西グリーンランド語、英語: West Greenlandic)は、グリーンランドで約56,000人が話している極低資源の合成言語である。
そこで我々は,約30の多言語WebサイトからのWebcrawled pseudoparallel文を用いて,事前訓練されたKalaallisut-to- English neural machine translation (NMT)システムを微調整する。
論文 参考訳(メタデータ) (2022-06-05T17:56:55Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。