論文の概要: Family of Origin and Family of Choice: Massively Parallel Lexiconized
Iterative Pretraining for Severely Low Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2104.05848v2
- Date: Wed, 14 Apr 2021 19:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 09:15:36.543587
- Title: Family of Origin and Family of Choice: Massively Parallel Lexiconized
Iterative Pretraining for Severely Low Resource Machine Translation
- Title(参考訳): 起源の族と選択の族--重度低リソース機械翻訳のための超並列レキシコン化反復事前学習
- Authors: Zhong Zhou, Alex Waibel
- Abstract要約: 我々は、大量のソース並列性を利用して、あらかじめ知られているテキストを極めて低いリソース言語に翻訳する。
私たちは124のソース言語を経験的にランク付けし、低リソース言語に近づき、上位数を選択する。
我々は124のソース言語で2,939の聖書名を持つエンティティを巨大な辞書テーブルとして構築し、66以上のリソース言語をカバーしている。
- 参考スコア(独自算出の注目度): 26.822210580244885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We translate a closed text that is known in advance into a severely low
resource language by leveraging massive source parallelism. Our contribution is
four-fold. Firstly, we rank 124 source languages empirically to determine their
closeness to the low resource language and select the top few. We call the
linguistic definition of language family Family of Origin (FAMO), and we call
the empirical definition of higher-ranked languages using our metrics Family of
Choice (FAMC). Secondly, we build an Iteratively Pretrained Multilingual
Order-preserving Lexiconized Transformer (IPML) to train on ~1,000 lines
(~3.5%) of low resource data. Using English as a hypothetical low resource
language to translate from Spanish, we obtain a +24.7 BLEU increase over a
multilingual baseline, and a +10.2 BLEU increase over our asymmetric baseline
in the Bible dataset. Thirdly, we also use a real severely low resource Mayan
language, Eastern Pokomchi. Finally, we add an order-preserving lexiconized
component to translate named entities accurately. We build a massive lexicon
table for 2,939 Bible named entities in 124 source languages, and include many
that occur once and covers more than 66 severely low resource languages.
Training on randomly sampled 1,093 lines of low resource data, we reach a 30.3
BLEU score for Spanish-English translation testing on 30,022 lines of Bible,
and a 42.8 BLEU score for Portuguese-English translation on the medical EMEA
dataset.
- Abstract(参考訳): 我々は、大量のソース並列性を利用して、あらかじめ知られている閉じたテキストを極めて低いリソース言語に翻訳する。
私たちの貢献は4倍です。
まず、124のソース言語を経験的にランク付けし、低リソース言語に近づき、上位数を選択する。
我々は、言語ファミリー・オブ・オリジン(FAMO)の言語定義を、我々のメトリクス・オブ・チョイス(FAMC)を用いて、上位言語を実証的に定義する。
次に,低資源データ約1,000行(約3.5%)のトレーニングを行うために,逐次事前学習された多言語順序保存レキシコン化トランスフォーマ(ipml)を構築した。
英語をスペイン語から翻訳する仮定的な低資源言語として用いると、多言語ベースラインより+24.7 bleu増加、聖書データセットにおける非対称ベースラインより+10.2 bleu増加が得られる。
第3に、非常に低資源のマヤ語であるEast Pokomchiも使用しています。
最後に、名前付きエンティティを正確に翻訳するために、注文保存の語彙化コンポーネントを追加します。
我々は124のソース言語で2,939の聖書名を持つエンティティを巨大な辞書テーブルとして構築し、66以上のリソース言語をカバーしている。
ランダムにサンプリングされた1,093行の低リソースデータをトレーニングし、30.022行の聖書のスペイン語翻訳試験で30.3BLEUスコア、医療EMEAデータセットでポルトガル語翻訳の42.8BLEUスコアに達した。
関連論文リスト
- LowREm: A Repository of Word Embeddings for 87 Low-Resource Languages Enhanced with Multilingual Graph Knowledge [0.6317163123651698]
87の低リソース言語に対する静的な埋め込みのリポジトリであるLowREmを紹介します。
また,多言語グラフ知識を統合することで,GloVeベースの埋め込みを強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T18:10:26Z) - LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons [17.776755522093595]
LexC-Genは、大規模に低リソースの分類タスクデータを生成する方法である。
両言語レキシコンの条件付けがLexC-Genの重要な構成要素であることを示す。
論文 参考訳(メタデータ) (2024-02-21T19:20:06Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Train Global, Tailor Local: Minimalist Multilingual Translation into
Endangered Languages [26.159803412486955]
人道的なシナリオでは、非常に低いリソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、最大限の翻訳品質を効率よく生成しようと試みている。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
論文 参考訳(メタデータ) (2023-05-05T23:22:16Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。