論文の概要: Ensembling of Distilled Models from Multi-task Teachers for Constrained
Resource Language Pairs
- arxiv url: http://arxiv.org/abs/2111.13284v1
- Date: Fri, 26 Nov 2021 00:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:04:27.990947
- Title: Ensembling of Distilled Models from Multi-task Teachers for Constrained
Resource Language Pairs
- Title(参考訳): 制約付き資源言語対のためのマルチタスク教師の蒸留モデルのセンセンスリング
- Authors: Amr Hendy, Esraa A. Gad, Mohamed Abdelghaffar, Jailan S. ElMosalami,
Mohamed Afify, Ahmed Y. Tawfik, Hany Hassan Awadalla
- Abstract要約: 我々は、ベンガル語からヒンディー語、英語からハウサ語、Xhosaからズールー語までの3つの比較的低いリソース言語対に焦点を当てている。
並列データと単言語データの両方を用いたマルチタスク目的を用いた多言語モデルを訓練する。
BLEUの英語とハウサ語との相対的な増加率は約70%、ベンガル語とヒンディー語、チョーサ語とズールー語の両方の相対的な改善率は約25%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our submission to the constrained track of WMT21 shared
news translation task. We focus on the three relatively low resource language
pairs Bengali to and from Hindi, English to and from Hausa, and Xhosa to and
from Zulu. To overcome the limitation of relatively low parallel data we train
a multilingual model using a multitask objective employing both parallel and
monolingual data. In addition, we augment the data using back translation. We
also train a bilingual model incorporating back translation and knowledge
distillation then combine the two models using sequence-to-sequence mapping. We
see around 70% relative gain in BLEU point for English to and from Hausa, and
around 25% relative improvements for both Bengali to and from Hindi, and Xhosa
to and from Zulu compared to bilingual baselines.
- Abstract(参考訳): 本稿では,WMT21共有ニュース翻訳タスクの制約トラックについて述べる。
我々は、ベンガル語からヒンディー語、英語からハウサ語、Xhosaからズールー語までの3つの比較的低いリソース言語対に焦点を当てている。
比較的低い並列データの制限を克服するため、並列データと単言語データの両方を用いてマルチタスク目的を用いてマルチ言語モデルを訓練する。
さらに、バック翻訳を用いてデータを増強する。
また,逆翻訳と知識蒸留を併用したバイリンガルモデルを訓練し,シーケンシャル・ツー・シーケンスマッピングを用いて2つのモデルを組み合わせた。
BLEUの英語とハウサ語との相対的な増加率は約70%であり、ベンガル語とヒンディー語、チョーサ語とズールー語との相対的な改善率はバイリンガルベースラインと比較して約25%である。
関連論文リスト
- SPRING Lab IITM's submission to Low Resource Indic Language Translation Shared Task [10.268444449457956]
我々は,Khasi,Mizo,Manipuri,Assameseの4つの低リソースIndic言語に対して,ロバストな翻訳モデルを構築した。
このアプローチには、データ収集と前処理からトレーニングと評価まで、包括的なパイプラインが含まれています。
バイリンガルデータの不足に対処するために,ミゾとカシのモノリンガルデータセットの逆翻訳手法を用いる。
論文 参考訳(メタデータ) (2024-11-01T16:39:03Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Multilingual Pre-training with Language and Task Adaptation for
Multilingual Text Style Transfer [14.799109368073548]
事前学習したSeq2seqモデルmBARTを多言語テキストスタイルの転送に活用する。
機械翻訳データとゴールドアライメントの英語文を使えば、最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-03-16T11:27:48Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - Translating Similar Languages: Role of Mutual Intelligibility in
Multilingual Transformers [8.9379057739817]
低資源条件下での類似言語間の翻訳手法について検討する。
トランスフォーマーをベースとしたバイリンガル・マルチリンガル系を全ての言語対に対して提案する。
私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。
論文 参考訳(メタデータ) (2020-11-10T10:58:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。