論文の概要: Train Global, Tailor Local: Minimalist Multilingual Translation into
Endangered Languages
- arxiv url: http://arxiv.org/abs/2305.03873v1
- Date: Fri, 5 May 2023 23:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:04:07.085393
- Title: Train Global, Tailor Local: Minimalist Multilingual Translation into
Endangered Languages
- Title(参考訳): train global, tailor local: 絶滅危惧言語へのミニマリスト多言語翻訳
- Authors: Zhong Zhou, Jan Niehues, Alex Waibel
- Abstract要約: 人道的なシナリオでは、非常に低いリソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、最大限の翻訳品質を効率よく生成しようと試みている。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
- 参考スコア(独自算出の注目度): 26.159803412486955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many humanitarian scenarios, translation into severely low resource
languages often does not require a universal translation engine, but a
dedicated text-specific translation engine. For example, healthcare records,
hygienic procedures, government communication, emergency procedures and
religious texts are all limited texts. While generic translation engines for
all languages do not exist, translation of multilingually known limited texts
into new, endangered languages may be possible and reduce human translation
effort. We attempt to leverage translation resources from many rich resource
languages to efficiently produce best possible translation quality for a well
known text, which is available in multiple languages, in a new, severely low
resource language. We examine two approaches: 1. best selection of seed
sentences to jump start translations in a new language in view of best
generalization to the remainder of a larger targeted text(s), and 2. we adapt
large general multilingual translation engines from many other languages to
focus on a specific text in a new, unknown language. We find that adapting
large pretrained multilingual models to the domain/text first and then to the
severely low resource language works best. If we also select a best set of seed
sentences, we can improve average chrF performance on new test languages from a
baseline of 21.9 to 50.7, while reducing the number of seed sentences to only
around 1,000 in the new, unknown language.
- Abstract(参考訳): 多くの人道的なシナリオでは、非常に低いリソース言語への翻訳は普遍的な翻訳エンジンではなく、専用のテキスト固有の翻訳エンジンを必要とすることが多い。
例えば、医療記録、衛生処置、政府通信、緊急処置、宗教文書は全て制限されたテキストである。
全ての言語に対する一般的な翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい絶滅危惧言語に翻訳することは可能であり、人間の翻訳作業を減らすことができる。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、複数の言語で利用可能な、非常に低いリソース言語において、よく知られたテキストの翻訳品質を効率的に生成しようと試みている。
2つのアプローチを調べます
1.より大きなターゲットテキストの残りの部分への最適な一般化の観点から、新しい言語で開始翻訳をジャンプするためのシード文の選択
我々は,他の多くの言語からの多言語翻訳エンジンを適応させ,未知の言語における特定のテキストに焦点をあてる。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
また、最適なシード文のセットを選択すると、21.9から50.7のベースラインから新しいテスト言語の平均chrF性能を向上させることができ、新しい未知の言語では、シード文の数を1,000に減らすことができる。
関連論文リスト
- Massively Multilingual Text Translation For Low-Resource Languages [7.3595126380784235]
人道的な取り組みでは、ひどい低リソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
全ての言語に対する汎用的な翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい低リソース言語に翻訳することは可能かもしれない。
論文 参考訳(メタデータ) (2024-01-29T21:33:08Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Local Translation Services for Neglected Languages [0.0]
この研究は、Leonardo da Vinci氏が実践しているように、1)ハッカースピーカー("l33t")と2)逆("mirror")の2つの歴史的に興味深いが難解な言語を翻訳している。
オリジナルのコントリビューションでは、50メガバイト未満のハッカースピーカーを流用している。
長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。
論文 参考訳(メタデータ) (2021-01-05T16:25:51Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。