論文の概要: Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin
- arxiv url: http://arxiv.org/abs/2307.00382v1
- Date: Sat, 1 Jul 2023 16:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:25:05.687889
- Title: Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin
- Title(参考訳): ナイジェリアピジンの低リソースクロスリンガル適応訓練
- Authors: Pin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel Scholman
- Abstract要約: ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.2039731457723604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing effective spoken language processing systems for low-resource
languages poses several challenges due to the lack of parallel data and limited
resources for fine-tuning models. In this work, we target on improving upon
both text classification and translation of Nigerian Pidgin (Naija) by
collecting a large-scale parallel English-Pidgin corpus and further propose a
framework of cross-lingual adaptive training that includes both continual and
task adaptive training so as to adapt a base pre-trained model to low-resource
languages. Our studies show that English pre-trained language models serve as a
stronger prior than multilingual language models on English-Pidgin tasks with
up to 2.38 BLEU improvements; and demonstrate that augmenting orthographic data
and using task adaptive training with back-translation can have a significant
impact on model performance.
- Abstract(参考訳): 低リソース言語のための効果的な音声言語処理システムの開発には、並列データの欠如や微調整モデルのリソース不足など、いくつかの課題がある。
本研究では,ナイジェリアのピジン (Naija) のテキスト分類と翻訳の改善を,大規模並列な英語-ピジンコーパスを収集することで目標とし,また,低リソース言語に基礎となる事前学習モデルを適用するために,継続学習とタスク適応トレーニングの両方を含む言語間適応トレーニングの枠組みを提案する。
本研究は,英語の事前学習言語モデルが,最大2.38 BLEUの改善を伴って,英語-Pidgin のタスクにおいて,多言語言語モデルよりも強い役割を担っていることを示す。
関連論文リスト
- Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Cross-Lingual Supervision improves Large Language Models Pre-training [36.932380291416365]
自己教師型言語モデリング目標と教師型機械翻訳目標の混合による事前学習により,文脈内学習能力のよいモデルが得られることを示す。
事前学習は非常に資源集約的なプロセスであり、2つの目標間の最良の混合比のグリッド探索は違法にコストがかかるため、事前学習時に学習するためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2023-05-19T16:14:07Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。