論文の概要: Which Nigerian-Pidgin does Generative AI speak?: Issues about Representativeness and Bias for Multilingual and Low Resource Languages
- arxiv url: http://arxiv.org/abs/2404.19442v1
- Date: Tue, 30 Apr 2024 10:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:34:58.865193
- Title: Which Nigerian-Pidgin does Generative AI speak?: Issues about Representativeness and Bias for Multilingual and Low Resource Languages
- Title(参考訳): ナイジェリア・ピジンはジェネレーティブAIを話すのか?:多言語・低資源言語における代表性とバイアスの問題
- Authors: David Ifeoluwa Adelani, A. Seza Doğruöz, Iyanuoluwa Shode, Anuoluwapo Aremu,
- Abstract要約: ナイジャ語はナイジェリアで約1億2000万人の話者が話していたナイジェリア・ピジン語である。
現在、ナイジャには2つのジャンル(BBCとウィキペディア)がある。
Generative AIはBBCのジャンルで書かれたNaijaをベースとしている。
- 参考スコア(独自算出の注目度): 8.829688681748413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Naija is the Nigerian-Pidgin spoken by approx. 120M speakers in Nigeria and it is a mixed language (e.g., English, Portuguese and Indigenous languages). Although it has mainly been a spoken language until recently, there are currently two written genres (BBC and Wikipedia) in Naija. Through statistical analyses and Machine Translation experiments, we prove that these two genres do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on Naija written in the BBC genre. In other words, Naija written in Wikipedia genre is not represented in Generative AI.
- Abstract(参考訳): ナイジャ(英: Naija)は、ナイジェリア・ピジン州で、アポックスによって話される言語である。
ナイジェリアでは1億2000万人が話者であり、混成言語(英語、ポルトガル語、先住民語など)である。
主に最近まで話し言葉だったが、現在ナイジャには2つのジャンル(BBCとウィキペディア)がある。
統計的分析と機械翻訳実験により、これらの2つのジャンルが互いに表現していないこと(すなわち、単語順と語彙の言語的差異がある)、生成AIはBBCのジャンルで書かれたナイジャに基づいてのみ動作することを証明した。
言い換えれば、ウィキペディアのジャンルで書かれたナイジャは生成AIでは表現されない。
関連論文リスト
- Nollywood: Let's Go to the Movies! [3.818480245025447]
ナイジェリア英語をアメリカ英語に翻訳できる音声サブタイトルモデルを作成する。
また、最も高度な毒性検知器を用いて、音声がどれほど有害であるかを検知します。
我々の狙いは、方言理解の欠如からしばしば無視されるこれらのビデオのテキストを強調することである。
論文 参考訳(メタデータ) (2024-07-02T19:50:55Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。
それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。
IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文 参考訳(メタデータ) (2021-03-19T11:06:37Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - A Panoramic Survey of Natural Language Processing in the Arab World [12.064637486695485]
自然言語(英: natural language)とは、意図的な人間の計画や設計を伴わない、象徴的なコミュニケーション(書面、署名、書面)のシステムを指す用語である。
自然言語処理(NLP)は、音声認識や合成、機械翻訳、光学文字認識(OCR)、感情分析(SA)、質問応答、対話システムなどの応用を構築するために自然言語をモデル化することに焦点を当てた人工知能(AI)のサブフィールドである。
論文 参考訳(メタデータ) (2020-11-25T10:45:38Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。