論文の概要: Kreyòl-MT: Building MT for Latin American, Caribbean and Colonial African Creole Languages
- arxiv url: http://arxiv.org/abs/2405.05376v1
- Date: Wed, 8 May 2024 19:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:52:18.614866
- Title: Kreyòl-MT: Building MT for Latin American, Caribbean and Colonial African Creole Languages
- Title(参考訳): クレイル・MT:ラテンアメリカ、カリブ、コロニアル・アフリカ・クレオール語のためのMTを構築する
- Authors: Nathaniel R. Robinson, Raj Dabre, Ammon Shurtz, Rasul Dent, Onenamiyi Onesi, Claire Bizon Monroc, Loïc Grobol, Hasan Muhammad, Ashi Garg, Naome A. Etori, Vijay Murari Tiyyala, Olanrewaju Samuel, Matthew Dean Stutzman, Bismarck Bamfo Odoom, Sanjeev Khudanpur, Stephen D. Richardson, Kenton Murray,
- Abstract要約: クレオール言語MTではこれまでで最大の累積データセットを提示する。
我々は、41のクレオール言語を172の翻訳方向でサポートするMTモデルを提供する。
多様なデータセットから、これまで以上にジャンルの多様性に晒されたクレオール言語MTのモデルを作成しました。
- 参考スコア(独自算出の注目度): 19.441108635898985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A majority of language technologies are tailored for a small number of high-resource languages, while relatively many low-resource languages are neglected. One such group, Creole languages, have long been marginalized in academic study, though their speakers could benefit from machine translation (MT). These languages are predominantly used in much of Latin America, Africa and the Caribbean. We present the largest cumulative dataset to date for Creole language MT, including 14.5M unique Creole sentences with parallel translations -- 11.6M of which we release publicly, and the largest bitexts gathered to date for 41 languages -- the first ever for 21. In addition, we provide MT models supporting all 41 Creole languages in 172 translation directions. Given our diverse dataset, we produce a model for Creole language MT exposed to more genre diversity than ever before, which outperforms a genre-specific Creole MT model on its own benchmark for 23 of 34 translation directions.
- Abstract(参考訳): 大部分の言語技術は少数の高リソース言語に向いているが、比較的多くの低リソース言語は無視されている。
そのようなグループであるクレオール語は、機械翻訳(MT)の恩恵を受けることができるが、学術研究において長い間辺境化されてきた。
これらの言語は主にラテンアメリカ、アフリカ、カリブ海で使われている。
並列翻訳を備えた14.5万のユニークなCreole文 -- 公開リリースの11.6万 -- を含む、Creole言語MTではこれまでで最大の累積データセットを示します。
さらに、41のクレオール言語を172の翻訳方向でサポートするMTモデルも提供する。
我々の多様なデータセットから、これまで以上にジャンルの多様性に晒されたクレオール言語MTのモデルを作成し、34の翻訳方向の23のベンチマークでジャンル固有のクレオールMTモデルより優れています。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - BigTranslate: Augmenting Large Language Models with Multilingual
Translation Capability over 100 Languages [47.99695189331567]
我々は,LLaMAを20言語に限定し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。
BigTranslateは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語単言語データを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTranslateモデルを導出する。
論文 参考訳(メタデータ) (2023-05-29T14:07:52Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。