論文の概要: Enhancing Low-Resource NMT with a Multilingual Encoder and Knowledge Distillation: A Case Study
- arxiv url: http://arxiv.org/abs/2407.06538v1
- Date: Tue, 9 Jul 2024 04:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:15:33.067023
- Title: Enhancing Low-Resource NMT with a Multilingual Encoder and Knowledge Distillation: A Case Study
- Title(参考訳): マルチリンガルエンコーダと知識蒸留を併用した低リソースNMTの実施例
- Authors: Aniruddha Roy, Pretam Ray, Ayush Maheshwari, Sudeshna Sarkar, Pawan Goyal,
- Abstract要約: 本稿では,低リソース言語への翻訳を容易にするために,事前学習型言語モデルの利点と,セック2セックアーキテクチャの知識蒸留を活用するフレームワークについて検討する。
本フレームワークは,低リソースのIndic言語を4つのIndic-to-Indic方向で評価し,BLEU-4とchrFの改善を実現した。
- 参考スコア(独自算出の注目度): 14.300310437948443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) remains a formidable challenge, especially when dealing with low-resource languages. Pre-trained sequence-to-sequence (seq2seq) multi-lingual models, such as mBART-50, have demonstrated impressive performance in various low-resource NMT tasks. However, their pre-training has been confined to 50 languages, leaving out support for numerous low-resource languages, particularly those spoken in the Indian subcontinent. Expanding mBART-50's language support requires complex pre-training, risking performance decline due to catastrophic forgetting. Considering these expanding challenges, this paper explores a framework that leverages the benefits of a pre-trained language model along with knowledge distillation in a seq2seq architecture to facilitate translation for low-resource languages, including those not covered by mBART-50. The proposed framework employs a multilingual encoder-based seq2seq model as the foundational architecture and subsequently uses complementary knowledge distillation techniques to mitigate the impact of imbalanced training. Our framework is evaluated on three low-resource Indic languages in four Indic-to-Indic directions, yielding significant BLEU-4 and chrF improvements over baselines. Further, we conduct human evaluation to confirm effectiveness of our approach. Our code is publicly available at https://github.com/raypretam/Two-step-low-res-NMT.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)は、特に低リソース言語を扱う場合、依然として大きな課題である。
mBART-50のような事前訓練されたシーケンス・ツー・シークエンス(seq2seq)マルチ言語モデルは、様々な低リソースNTTタスクにおいて顕著な性能を示している。
しかし、プレトレーニングは50言語に限られており、特にインド亜大陸で話されている多くの低リソース言語のサポートは残されている。
mBART-50の言語サポートを拡張するには、複雑な事前トレーニングが必要である。
そこで本研究では,mBART-50でカバーされていない言語を含む低リソース言語への翻訳を容易にするために,事前学習型言語モデルの利点とセq2seqアーキテクチャの知識蒸留を活用するフレームワークについて検討する。
提案フレームワークは,多言語エンコーダをベースとしたセク2セックモデルを基礎的アーキテクチャとして使用し,その後,不均衡学習の影響を軽減するために補完的知識蒸留技術を用いている。
本フレームワークは,低リソースのIndic言語を4つのIndic-to-Indic方向で評価し,BLEU-4とchrFの改善を実現した。
さらに,本手法の有効性を確認するために人的評価を行う。
私たちのコードはhttps://github.com/raypretam/Two-step-low-res-NMTで公開されています。
関連論文リスト
- Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Low Resource Summarization using Pre-trained Language Models [1.26404863283601]
そこで本稿では,低リソースの要約に自己注意型トランスフォーマーベースアーキテクチャモデル(mBERT,mT5)を適用する手法を提案する。
適応的な要約モデル textiturT5 は、高リソース言語英語の最先端モデルに匹敵する評価スコア(最大46.35 ROUGE-1,77 BERTScore)で、低リソース言語の文脈情報を効果的にキャプチャすることができる。
論文 参考訳(メタデータ) (2023-10-04T13:09:39Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model [16.872474334479026]
本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
論文 参考訳(メタデータ) (2022-05-31T05:14:50Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。