論文の概要: The first large scale collection of diverse Hausa language datasets
- arxiv url: http://arxiv.org/abs/2102.06991v2
- Date: Tue, 16 Feb 2021 20:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 16:56:39.022500
- Title: The first large scale collection of diverse Hausa language datasets
- Title(参考訳): 多様なHausa言語データセットの最初の大規模コレクション
- Authors: Isa Inuwa-Dutse
- Abstract要約: ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hausa language belongs to the Afroasiatic phylum, and with more
first-language speakers than any other sub-Saharan African language. With a
majority of its speakers residing in the Northern and Southern areas of Nigeria
and the Republic of Niger, respectively, it is estimated that over 100 million
people speak the language. Hence, making it one of the most spoken Chadic
language. While Hausa is considered well-studied and documented language among
the sub-Saharan African languages, it is viewed as a low resource language from
the perspective of natural language processing (NLP) due to limited resources
to utilise in NLP-related tasks. This is common to most languages in Africa;
thus, it is crucial to enrich such languages with resources that will support
and speed the pace of conducting various downstream tasks to meet the demand of
the modern society. While there exist useful datasets, notably from news sites
and religious texts, more diversity is needed in the corpus.
We provide an expansive collection of curated datasets consisting of both
formal and informal forms of the language from refutable websites and online
social media networks, respectively. The collection is large and more diverse
than the existing corpora by providing the first and largest set of Hausa
social media data posts to capture the peculiarities in the language. The
collection also consists of a parallel dataset, which can be used for tasks
such as machine translation with applications in areas such as the detection of
spurious or inciteful online content. We describe the curation process -- from
the collection, preprocessing and how to obtain the data -- and proffer some
research problems that could be addressed using the data.
- Abstract(参考訳): ハウサ語はアフロアシア語のフィラムに属し、他のサハラ以南のアフリカ語よりも第一言語話者が多い。
話者の大半はナイジェリア北部と南部に居住し、ニジェール共和国では1億人以上がこの言語を話していると推定されている。
そのため、チャド語で最も多く話されている言語である。
ハウサはサハラ以南のアフリカの言語の中でよく研究され、文書化された言語と考えられているが、NLP関連のタスクに利用するリソースが限られているため、自然言語処理(NLP)の観点からは低リソース言語と見なされている。
これはアフリカのほとんどの言語に共通するものであり、現代社会の要求を満たすために様々な下流タスクの実行のペースをサポートし、高速化するリソースでそのような言語を充実させることが重要です。
有用なデータセット、特にニュースサイトや宗教的なテキストは存在するが、コーパスにはより多くの多様性が必要である。
我々は,refutable web サイト と online social media network から,形式形式と形式的の両方からなるデータ集合の広範なコレクションを提供する。
このコレクションは、既存のコーポラよりも大規模で多様で、言語の特異性をキャプチャする最初の、最大のHausaソーシャルメディアデータ投稿を提供します。
このコレクションは並列データセットも含んでおり、スプリアスや熱狂的なオンラインコンテンツの検出などの分野でアプリケーションによる機械翻訳などのタスクに使用することができる。
収集、前処理、データの取得方法から、キュレーションプロセスを説明し、データを使用して対処できるいくつかの研究問題を推測します。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi [13.9876704685177]
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
これらの介入の最後には、12,000語未満の翻訳語や文を収集しました。
プロジェクトの大きな目標は、実行可能な言語テクノロジの構築とデプロイに十分なデータをゴンディで収集することだ。
論文 参考訳(メタデータ) (2020-04-21T20:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。