論文の概要: Translating Similar Languages: Role of Mutual Intelligibility in
Multilingual Transformers
- arxiv url: http://arxiv.org/abs/2011.05037v1
- Date: Tue, 10 Nov 2020 10:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:39:33.930505
- Title: Translating Similar Languages: Role of Mutual Intelligibility in
Multilingual Transformers
- Title(参考訳): 類似言語翻訳:多言語変換における相互知能の役割
- Authors: Ife Adebara, El Moatez Billah Nagoudi, Muhammad Abdul Mageed
- Abstract要約: 低資源条件下での類似言語間の翻訳手法について検討する。
トランスフォーマーをベースとしたバイリンガル・マルチリンガル系を全ての言語対に対して提案する。
私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。
- 参考スコア(独自算出の注目度): 8.9379057739817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate different approaches to translate between similar languages
under low resource conditions, as part of our contribution to the WMT 2020
Similar Languages Translation Shared Task. We submitted Transformer-based
bilingual and multilingual systems for all language pairs, in the two
directions. We also leverage back-translation for one of the language pairs,
acquiring an improvement of more than 3 BLEU points. We interpret our results
in light of the degree of mutual intelligibility (based on Jaccard similarity)
between each pair, finding a positive correlation between mutual
intelligibility and model performance. Our Spanish-Catalan model has the best
performance of all the five language pairs. Except for the case of
Hindi-Marathi, our bilingual models achieve better performance than the
multilingual models on all pairs.
- Abstract(参考訳): 我々は、wmt 2020 類似言語翻訳共有タスクへの貢献の一環として、低リソース条件下で類似言語間の翻訳の異なるアプローチを調査した。
すべての言語ペアに対して,トランスフォーマティブに基づくバイリンガルシステムとマルチリンガルシステムを提案した。
私たちはまた、言語ペアの1つにバックトランスレーションを利用し、3つ以上の点の改善を得ました。
本研究は,両者の相互信頼度(ジャカード類似度に基づく)の程度を考慮し,相互信頼度とモデル性能の正の相関関係を見出した。
私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。
Hindi-Marathiを除いて、我々のバイリンガルモデルは全てのペアのマルチリンガルモデルよりも優れた性能を達成する。
関連論文リスト
- Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Multilingual Pre-training with Language and Task Adaptation for
Multilingual Text Style Transfer [14.799109368073548]
事前学習したSeq2seqモデルmBARTを多言語テキストスタイルの転送に活用する。
機械翻訳データとゴールドアライメントの英語文を使えば、最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-03-16T11:27:48Z) - Multilingual Mix: Example Interpolation Improves Multilingual Neural
Machine Translation [45.77509642452541]
インスタンスレベルで言語ペアを融合するために,多言語クロスオーバーエンコーダデコーダ(mXEncDec)を導入する。
提案手法は,言語間の入力空間と出力空間の共有を促進するために,異なる言語ペアのインスタンスを共同でクロスオーバー例に補間する。
論文 参考訳(メタデータ) (2022-03-15T03:56:22Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - Establishing Interlingua in Multilingual Language Models [0.0]
異なる言語が大きな多言語言語モデルにおいて共有空間に収束することを示す。
我々は28の多様な言語に分析を拡張し、言語間の空間が言語の言語的関連性に類似した特定の構造を示すことを発見した。
論文 参考訳(メタデータ) (2021-09-02T20:53:14Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。