論文の概要: Multitask Finetuning for Improving Neural Machine Translation in Indian
Languages
- arxiv url: http://arxiv.org/abs/2112.01742v1
- Date: Fri, 3 Dec 2021 06:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 01:54:16.578991
- Title: Multitask Finetuning for Improving Neural Machine Translation in Indian
Languages
- Title(参考訳): インド語におけるニューラルネットワーク翻訳改善のためのマルチタスクファインタニング
- Authors: Shaily Desai, Atharva Kshirsagar, Manisha Marathe
- Abstract要約: トランスフォーマーベースの言語モデルは、自然言語処理のすべての領域で印象的な結果をもたらしています。
本稿では,バイリンガル機械翻訳タスクと補助的な因果言語モデリングタスクを組み合わせたマルチタスクファインタニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer based language models have led to impressive results across all
domains in Natural Language Processing. Pretraining these models on language
modeling tasks and finetuning them on downstream tasks such as Text
Classification, Question Answering and Neural Machine Translation has
consistently shown exemplary results. In this work, we propose a Multitask
Finetuning methodology which combines the Bilingual Machine Translation task
with an auxiliary Causal Language Modeling task to improve performance on the
former task on Indian Languages. We conduct an empirical study on three
language pairs, Marathi-Hindi, Marathi-English and Hindi-English, where we
compare the multitask finetuning approach to the standard finetuning approach,
for which we use the mBART50 model. Our study indicates that the multitask
finetuning method could be a better technique than standard finetuning, and
could improve Bilingual Machine Translation across language pairs.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、自然言語処理のすべての領域で印象的な結果をもたらしています。
これらのモデルを言語モデリングタスクで事前トレーニングし、テキスト分類、質問応答、ニューラルネットワーク翻訳などの下流タスクで微調整することは、一貫して模範的な結果を示している。
本研究では,多言語機械翻訳タスクと補助因果言語モデリングタスクを組み合わせたマルチタスクの微調整手法を提案する。
marathi-hindi,marathi-english,hindi-englishの3つの言語ペアについて経験的研究を行い,mbart50モデルを用いて,マルチタスクの微調整アプローチと標準的な微調整アプローチを比較した。
本研究は,マルチタスクファインタニング手法が標準ファインタニングよりも優れた手法であり,言語ペア間のバイリンガル機械翻訳を改善する可能性を示唆している。
関連論文リスト
- Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks [22.93790760274486]
ゼロショットの言語間知識伝達により、ある言語でタスクを微調整し、他の言語でタスクの予測を行う多言語事前学習言語モデルが可能になる。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
論文 参考訳(メタデータ) (2024-02-19T16:43:57Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Exploring Pair-Wise NMT for Indian Languages [35.17470908190963]
これらのモデルの性能は, フィルタした逆翻訳プロセスを通じて, バックトランスレーションを用いることで大幅に向上できることを示す。
本稿では,本手法がベースラインよりも多言語モデルの性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2020-12-10T16:22:36Z) - Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages [0.8155575318208631]
Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
論文 参考訳(メタデータ) (2020-11-04T14:43:43Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。