論文の概要: Unsupervised Translation of German--Lower Sorbian: Exploring Training
and Novel Transfer Methods on a Low-Resource Language
- arxiv url: http://arxiv.org/abs/2109.12012v1
- Date: Fri, 24 Sep 2021 15:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:15:41.534933
- Title: Unsupervised Translation of German--Lower Sorbian: Exploring Training
and Novel Transfer Methods on a Low-Resource Language
- Title(参考訳): ドイツ語-低地セルビア語の教師なし翻訳--低資源言語による訓練と新しい移動法を探る
- Authors: Lukas Edman, Ahmet \"Ust\"un, Antonio Toral, Gertjan van Noord
- Abstract要約: 本稿では,WMT 2021 Unsupervised Machine Translationタスクにおいて,Groningen大学が提案したシステムの背後にある手法について述べる。
本システムでは,標準的なトレーニング手順に3つの変更を加えたトランスフォーマーエンコーダデコーダアーキテクチャを用いている。
本稿では,DSBに対して3.2 BLEU,DSB$rightarrow$DEに対して4.0 BLEUを改良し,未知の言語の語彙を初期化する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.4870937127982344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the methods behind the systems submitted by the
University of Groningen for the WMT 2021 Unsupervised Machine Translation task
for German--Lower Sorbian (DE--DSB): a high-resource language to a low-resource
one. Our system uses a transformer encoder-decoder architecture in which we
make three changes to the standard training procedure. First, our training
focuses on two languages at a time, contrasting with a wealth of research on
multilingual systems. Second, we introduce a novel method for initializing the
vocabulary of an unseen language, achieving improvements of 3.2 BLEU for
DE$\rightarrow$DSB and 4.0 BLEU for DSB$\rightarrow$DE. Lastly, we experiment
with the order in which offline and online back-translation are used to train
an unsupervised system, finding that using online back-translation first works
better for DE$\rightarrow$DSB by 2.76 BLEU. Our submissions ranked first (tied
with another team) for DSB$\rightarrow$DE and third for DE$\rightarrow$DSB.
- Abstract(参考訳): 本稿では,ドイツにおけるWMT 2021 Unsupervised Machine Translation task for German-Lower Sorbian (DE--DSB):低リソース言語に対する高リソース言語について述べる。
本システムでは,標準的なトレーニング手順に3つの変更を加えたトランスフォーマーエンコーダデコーダアーキテクチャを用いている。
まず,多言語システムに関する豊富な研究とは対照的に,2つの言語を同時に学習する。
次に,未認識言語の語彙を初期化する新しい手法を導入し,de$\rightarrow$dsb の 3.2 bleu と dsb$\rightarrow$de の 4.0 bleu の改善を実現する。
最後に、オフラインとオンラインのバックトランスレーションが教師なしシステムのトレーニングに使用される順序を実験し、オンラインのバックトランスレーションを使用することで、2.76 BLEU の DE$\rightarrow$DSB がよりうまく機能することを発見した。
我々の提出品はDSB$\rightarrow$DEで1位(他のチームと2位)、De$\rightarrow$DSBで3位にランクインした。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - The LMU Munich System for the WMT 2020 Unsupervised Machine Translation
Shared Task [125.06737861979299]
本稿では,LMUミュンヘンのWMT 2020における非教師なし共有タスクへの2つの言語方向の提出について述べる。
我々のunsupervised neural machine translation (UNMT) システムは Chronopoulou et al の戦略に従っている。
我々は、最高の性能のシステムを集め、ドイツ語で32.4点、上セルビアで35.2点、ドイツで35.2点に達した。
論文 参考訳(メタデータ) (2020-10-25T19:04:03Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Cross-model Back-translated Distillation for Unsupervised Machine
Translation [21.79719281036467]
CBD(Cross-model Back-translate Distillation)と呼ばれる標準UTTフレームワークに新しいコンポーネントを導入する。
CBDは、WMT'14英語・フランス語・WMT'16英語・ドイツ語・英語・ルーマニア語・ルーマニア語のバイリンガル・アン教師なし翻訳タスクで芸術の状態を達成している。
また、IWSLTの英語とドイツ語のタスクにおいて1.5-3.3のBLEU改善が達成された。
論文 参考訳(メタデータ) (2020-06-03T10:57:21Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。