論文の概要: Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and
Spanish-Mixtec
- arxiv url: http://arxiv.org/abs/2305.17404v1
- Date: Sat, 27 May 2023 08:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:35:49.595965
- Title: Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and
Spanish-Mixtec
- Title(参考訳): ネイティブ言語翻訳のための並列コーパス:スペイン語-マサテック語とスペイン語-ミクシュテカ語
- Authors: Atnafu Lambebo Tonja, Christian Maldonado-Sifuentes, David Alejandro
Mendoza Castillo, Olga Kolesnikova, No\'e Castro-S\'anchez, Grigori Sidorov,
Alexander Gelbukh
- Abstract要約: 本稿では,機械翻訳(MT)タスクのための並列型スパニッシュ・マザテックとスパニッシュ・ミクテック・コーパスを提案する。
本研究では, トランスフォーマー, トランスファーラーニング, 微調整済み多言語MTモデルの3つのアプローチを用いて, 収集したコーパスのユーザビリティを評価した。
その結果,Mixtecのデータセットサイズ(9,799文),Mixtecの13,235文)が翻訳性能に影響を及ぼし,対象言語として使用する場合のネイティブ言語の性能が向上した。
- 参考スコア(独自算出の注目度): 51.35013619649463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a parallel Spanish-Mazatec and Spanish-Mixtec
corpus for machine translation (MT) tasks, where Mazatec and Mixtec are two
indigenous Mexican languages. We evaluated the usability of the collected
corpus using three different approaches: transformer, transfer learning, and
fine-tuning pre-trained multilingual MT models. Fine-tuning the Facebook
M2M100-48 model outperformed the other approaches, with BLEU scores of 12.09
and 22.25 for Mazatec-Spanish and Spanish-Mazatec translations, respectively,
and 16.75 and 22.15 for Mixtec-Spanish and Spanish-Mixtec translations,
respectively. The findings show that the dataset size (9,799 sentences in
Mazatec and 13,235 sentences in Mixtec) affects translation performance and
that indigenous languages work better when used as target languages. The
findings emphasize the importance of creating parallel corpora for indigenous
languages and fine-tuning models for low-resource translation tasks. Future
research will investigate zero-shot and few-shot learning approaches to further
improve translation performance in low-resource settings. The dataset and
scripts are available at
\url{https://github.com/atnafuatx/Machine-Translation-Resources}
- Abstract(参考訳): 本稿では,MazatecとMixtecがメキシコ原産の2つの言語である,機械翻訳(MT)タスクのための並列なスペイン語-Mazatecとスペイン語-Mixtecコーパスを提案する。
トランスフォーマー,転送学習,事前学習された多言語mtモデルという3つのアプローチを用いて,収集したコーパスのユーザビリティを評価した。
facebook m2m100-48モデルの微調整は、それぞれマサテカ・スペイン・マサテカ翻訳で12.09点、22.25点、ミシュテカ・スペイン・ミシュテカ翻訳で16.75点、22.15点という他のアプローチよりも優れていた。
その結果,Mixtecのデータセットサイズ(9,799文),Mixtecの13,235文)が翻訳性能に影響を及ぼし,対象言語として使用する場合のネイティブ言語の性能が向上した。
この知見は,低リソース翻訳タスクにおいて,ネイティブ言語のための並列コーパスの作成と微調整モデルの重要性を強調した。
今後,低リソース環境での翻訳性能を向上させるため,ゼロショットおよび少数ショット学習アプローチについて検討する。
データセットとスクリプトは \url{https://github.com/atnafuatx/Machine-Translation-Resources} で入手できる。
関連論文リスト
- Multilingual Transfer and Domain Adaptation for Low-Resource Languages of Spain [9.28989997114014]
スペイン語からアラゴネーズ(es-arg)、スペイン語からアラン語(es-arn)、スペイン語からアストゥリアン語(es-ast)の3つの翻訳作業に参加した。
これら3つの翻訳タスクでは、多言語翻訳、正規化ドロップアウト、前方翻訳、前方翻訳、音声認識、アンサンブル学習など、深層トランスフォーマー・ビッグアーキテクチャのトレーニングに基づくニューラルマシン翻訳(NMT)モデルに対するトレーニング戦略を用いる。
論文 参考訳(メタデータ) (2024-09-24T09:46:27Z) - Machine Translation Advancements of Low-Resource Indian Languages by Transfer Learning [9.373815852241648]
低リソースのインド語に対する信頼性の高い機械翻訳システムを開発するために,我々は2つの異なる知識伝達戦略を採用している。
Assamese(as)とManipuri(mn)については、既存のIndicTrans2オープンソースモデルを微調整して、英語とこれらの言語間の双方向翻訳を可能にした。
Khasi (kh) と Mizo (mz) については,これら4つの言語ペアのバイリンガルデータと約8kwの英語-ベンガルバイリンガルデータを用いて,ベースラインとして多言語モデルを訓練した。
論文 参考訳(メタデータ) (2024-09-24T08:53:19Z) - Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language [1.1702440973773898]
本研究では,Timor-Lesteで話される低音源のオーストロネシア語であるMambaiへの英語翻訳における大規模言語モデルの利用について検討した。
提案手法は, 並列文と辞書エントリの戦略的な選択と, プロンプトのための手法である。
辞書をインプロンプトに含め,-IDFで検索した文とセマンティック埋め込みを混合することにより,翻訳品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-07T05:04:38Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text
using Transformer Ensembles [0.5324802812881543]
本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。
我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2023-08-02T20:08:59Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - Facebook AI WMT21 News Translation Task Submission [23.69817809546458]
ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。
チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語指導に参加します。
利用可能なすべてのソースからのデータを利用して、高品質なバイリンガルベースラインとマルチリンガルベースラインを作成します。
論文 参考訳(メタデータ) (2021-08-06T18:26:38Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。