論文の概要: Low-Resourced Machine Translation for Senegalese Wolof Language
- arxiv url: http://arxiv.org/abs/2305.00606v1
- Date: Mon, 1 May 2023 00:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:17:57.920544
- Title: Low-Resourced Machine Translation for Senegalese Wolof Language
- Title(参考訳): セネガル語wolof言語のための低資源機械翻訳
- Authors: Derguene Mbaye, Moussa Diallo, Thierno Ibrahima Diop
- Abstract要約: リカレントニューラルネットワーク(RNN)に基づく機械翻訳モデルの実験を行った123,000文からなるWolof/Frenchコーパスを並列に提示する。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。
- 参考スコア(独自算出の注目度): 0.34376560669160383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) research has made great advancements in
recent years with major breakthroughs that have established new benchmarks.
However, these advances have mainly benefited a certain group of languages
commonly referred to as resource-rich such as English and French. Majority of
other languages with weaker resources are then left behind which is the case
for most African languages including Wolof. In this work, we present a parallel
Wolof/French corpus of 123,000 sentences on which we conducted experiments on
machine translation models based on Recurrent Neural Networks (RNN) in
different data configurations. We noted performance gains with the models
trained on subworded data as well as those trained on the French-English
language pair compared to those trained on the French-Wolof pair under the same
experimental conditions.
- Abstract(参考訳): 自然言語処理(NLP)の研究は近年大きな進歩を遂げ、新たなベンチマークを確立している。
しかし、これらの進歩は主に英語やフランス語のような資源に富む言語群に恩恵を与えてきた。
弱い資源を持つ他の言語の大部分は後に残され、wolofを含むほとんどのアフリカの言語がそうである。
本研究では,RNN(Recurrent Neural Networks)に基づく機械翻訳モデルの実験を行い,123,000の文からなるWolof/Frenchコーパスについて述べる。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。
関連論文リスト
- DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Multilingual unsupervised sequence segmentation transfers to extremely
low-resource languages [0.0]
Masked Segmental Language Modelを多言語で事前学習することで、教師なしシーケンスセグメンテーションのパフォーマンスを極端に低リソース言語に変換することができる。
対象言語とタイプ論的に類似しているが系統学的には無関係) な低リソース言語群を学習することにより, この移行を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:08:28Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Low-Resource Language Modelling of South African Languages [6.805575417034369]
南アフリカの低資源言語におけるボカブラリ言語モデルの性能を評価する。
本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの異種を小規模データセット上で評価する。
全体的に、よく規則化されたRNNは、2つのisiZuluと1つのSepediデータセットで最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T21:27:27Z) - Transfer Learning and Distant Supervision for Multilingual Transformer
Models: A Study on African Languages [20.92293429849952]
本研究では,アフリカ3言語(Hausa,isiXhosa,Yorub'a)の資源利用状況について調査した。
これらのモデルでは,移動学習や遠隔監視と組み合わせて,ベースラインと同等の性能のラベル付き文を10~100文程度で実現できることが示されている。
論文 参考訳(メタデータ) (2020-10-07T05:23:27Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Using LSTM to Translate French to Senegalese Local Languages: Wolof as a
Case Study [0.0]
我々は,低リソースのNiger-Congo言語であるWolofのニューラルマシン翻訳システムを提案する。
私たちは7万行のフランス語-ウーロフ文の平行コーパスを集めました。
われわれのモデルは、限られた量のフランス語とWolofのデータに基づいて訓練されている。
論文 参考訳(メタデータ) (2020-03-27T17:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。