論文の概要: Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak
- arxiv url: http://arxiv.org/abs/2409.04269v1
- Date: Fri, 6 Sep 2024 13:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:44:50.414231
- Title: Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak
- Title(参考訳): Open Language Data Initiative:Karakalpakの低リソース機械翻訳の改善
- Authors: Mukhammadsaid Mamasaidov, Abror Shopulatov,
- Abstract要約: 本研究ではカラカルパク語に対するいくつかの貢献について述べる。
カラカルパックに翻訳されたFLORES+のデベスタデータセット、ウズベク・カラカルパック、ロシア・カラカルパック、イギリス・カラカルパックのパラレルコーポラが含まれている。
実験では、異なるモデル変種とトレーニングアプローチを比較し、既存のベースラインの改善を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.
- Abstract(参考訳): この研究はカラカルパク語に対するいくつかの貢献を示す: カラカルパク語に翻訳されたFLORES+のデベロップスデータセット、ウズベク・カラカルパク語のための並列コーパス、ロシア・カラカルパク語、英語・カラカルパク語の各10,000対のペア、そしてこれらの言語をまたいだ翻訳のためのオープンソースの微調整ニューラルモデル。
実験では、異なるモデル変種とトレーニングアプローチを比較し、既存のベースラインの改善を実証した。
この作業は、Open Language Data Initiative(OLDI)共有タスクの一部として実施され、Karakalpakの機械翻訳能力を向上し、NLP技術における言語多様性の拡大に寄与することを目的としている。
関連論文リスト
- SPRING Lab IITM's submission to Low Resource Indic Language Translation Shared Task [10.268444449457956]
我々は,Khasi,Mizo,Manipuri,Assameseの4つの低リソースIndic言語に対して,ロバストな翻訳モデルを構築した。
このアプローチには、データ収集と前処理からトレーニングと評価まで、包括的なパイプラインが含まれています。
バイリンガルデータの不足に対処するために,ミゾとカシのモノリンガルデータセットの逆翻訳手法を用いる。
論文 参考訳(メタデータ) (2024-11-01T16:39:03Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Multilingual Coreference Resolution with Harmonized Annotations [0.0]
新たに作成した多言語コーパスCorefUDを用いてコア参照分解実験を行う。
チェコ語、ロシア語、ポーランド語、ドイツ語、スペイン語、カタルーニャ語などです。
マルチリンガルな実験でトレーニングデータを組み合わせて、スラヴ語とすべての言語の2つの結合モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-07-26T10:11:06Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。