論文の概要: Guylingo: The Republic of Guyana Creole Corpora
- arxiv url: http://arxiv.org/abs/2405.03832v3
- Date: Tue, 2 Jul 2024 21:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:34:44.242712
- Title: Guylingo: The Republic of Guyana Creole Corpora
- Title(参考訳): Guylingo:Guyana Creole Corpora(英語)
- Authors: Christopher Clarke, Roland Daynauth, Charlene Wilkinson, Hubert Devonish, Jason Mars,
- Abstract要約: クレオール語領域におけるNLP研究の進展を目的とした包括的コーパスについて述べる。
我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。
次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。
- 参考スコア(独自算出の注目度): 6.582021376649199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While major languages often enjoy substantial attention and resources, the linguistic diversity across the globe encompasses a multitude of smaller, indigenous, and regional languages that lack the same level of computational support. One such region is the Caribbean. While commonly labeled as "English speaking", the ex-British Caribbean region consists of a myriad of Creole languages thriving alongside English. In this paper, we present Guylingo: a comprehensive corpus designed for advancing NLP research in the domain of Creolese (Guyanese English-lexicon Creole), the most widely spoken language in the culturally rich nation of Guyana. We first outline our framework for gathering and digitizing this diverse corpus, inclusive of colloquial expressions, idioms, and regional variations in a low-resource language. We then demonstrate the challenges of training and evaluating NLP models for machine translation in Creole. Lastly, we discuss the unique opportunities presented by recent NLP advancements for accelerating the formal adoption of Creole languages as official languages in the Caribbean.
- Abstract(参考訳): 主要言語は、しばしばかなりの注意と資源を享受するが、世界中の言語多様性は、同じレベルの計算支援を欠く、より小さく、先住民的、地域言語を含む。
そのような地域の一つがカリブ海である。
一般的に「英語」と名付けられているが、元カリブ海地域は英語と共に繁栄するクレオール語が多数存在する。
本稿では,ガイアナの文化的に豊かな国で最も広く話されている言語であるクレオール語(グアーン英語・レキシコンクレオール語)の領域におけるNLP研究を促進するために設計された包括的コーパスであるGuylingoを紹介する。
我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。
次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。
最後に、カリブ海における公用語としてのクレオール語の公式導入を促進するため、最近のNLPの進歩によってもたらされる特異な機会について論じる。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。
さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文 参考訳(メタデータ) (2024-04-09T09:04:30Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - CreoleVal: Multilingual Multitask Benchmarks for Creoles [46.50887462355172]
CreoleValは8つの異なるNLPタスクにまたがるベンチマークデータセットの集合である。
これは、理解、関係分類、クレオールの機械翻訳のための新しい開発データセットの集合である。
論文 参考訳(メタデータ) (2023-10-30T14:24:20Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset [7.940548890754674]
JamPatoisNLIは、クレオール言語であるジャマイカのパトワで、自然言語推論のための最初のデータセットを提供する。
最もスポークな低リソース言語の多くはクレオールである。
実験の結果,JamPatoisNLIは非関連言語よりも,比較的優れた学習結果が得られた。
論文 参考訳(メタデータ) (2022-12-07T03:07:02Z) - What a Creole Wants, What a Creole Needs [1.985426476051888]
我々は,低リソース言語であるクレオール言語群を考察する。クレオール言語はNLP文学にはほとんど欠落しており,また,スティグマのため社会全体から無視されることも多い。
クレオールの専門家との会話やクレオール話者コミュニティの調査を通じて、言語技術から必要なものが言語によって劇的に変化する様子を実演する。
論文 参考訳(メタデータ) (2022-06-01T12:22:34Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。