論文の概要: Guylingo: The Republic of Guyana Creole Corpora
- arxiv url: http://arxiv.org/abs/2405.03832v3
- Date: Tue, 2 Jul 2024 21:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:34:44.242712
- Title: Guylingo: The Republic of Guyana Creole Corpora
- Title(参考訳): Guylingo:Guyana Creole Corpora(英語)
- Authors: Christopher Clarke, Roland Daynauth, Charlene Wilkinson, Hubert Devonish, Jason Mars,
- Abstract要約: クレオール語領域におけるNLP研究の進展を目的とした包括的コーパスについて述べる。
我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。
次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。
- 参考スコア(独自算出の注目度): 6.582021376649199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While major languages often enjoy substantial attention and resources, the linguistic diversity across the globe encompasses a multitude of smaller, indigenous, and regional languages that lack the same level of computational support. One such region is the Caribbean. While commonly labeled as "English speaking", the ex-British Caribbean region consists of a myriad of Creole languages thriving alongside English. In this paper, we present Guylingo: a comprehensive corpus designed for advancing NLP research in the domain of Creolese (Guyanese English-lexicon Creole), the most widely spoken language in the culturally rich nation of Guyana. We first outline our framework for gathering and digitizing this diverse corpus, inclusive of colloquial expressions, idioms, and regional variations in a low-resource language. We then demonstrate the challenges of training and evaluating NLP models for machine translation in Creole. Lastly, we discuss the unique opportunities presented by recent NLP advancements for accelerating the formal adoption of Creole languages as official languages in the Caribbean.
- Abstract(参考訳): 主要言語は、しばしばかなりの注意と資源を享受するが、世界中の言語多様性は、同じレベルの計算支援を欠く、より小さく、先住民的、地域言語を含む。
そのような地域の一つがカリブ海である。
一般的に「英語」と名付けられているが、元カリブ海地域は英語と共に繁栄するクレオール語が多数存在する。
本稿では,ガイアナの文化的に豊かな国で最も広く話されている言語であるクレオール語(グアーン英語・レキシコンクレオール語)の領域におけるNLP研究を促進するために設計された包括的コーパスであるGuylingoを紹介する。
我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。
次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。
最後に、カリブ海における公用語としてのクレオール語の公式導入を促進するため、最近のNLPの進歩によってもたらされる特異な機会について論じる。
関連論文リスト
- Molyé: A Corpus-based Approach to Language Contact in Colonial France [10.054303678856536]
Moly'e corpus は、ヨーロッパでの言語変化のステレオタイプ表現と、早くから証明されたフランス語ベースのクレオール言語を組み合わせたものである。
ヨーロッパにおける接触状況とクレオフォン(旧)植民地の間の連続性に関する将来の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T16:09:40Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - CreoleVal: Multilingual Multitask Benchmarks for Creoles [46.50887462355172]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset [7.940548890754674]
JamPatoisNLIは、クレオール言語であるジャマイカのパトワで、自然言語推論のための最初のデータセットを提供する。
最もスポークな低リソース言語の多くはクレオールである。
実験の結果,JamPatoisNLIは非関連言語よりも,比較的優れた学習結果が得られた。
論文 参考訳(メタデータ) (2022-12-07T03:07:02Z) - What a Creole Wants, What a Creole Needs [1.985426476051888]
我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
論文 参考訳(メタデータ) (2022-06-01T12:22:34Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。