論文の概要: Language Diversity: Evaluating Language Usage and AI Performance on African Languages in Digital Spaces
- arxiv url: http://arxiv.org/abs/2512.01557v1
- Date: Mon, 01 Dec 2025 11:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.823209
- Title: Language Diversity: Evaluating Language Usage and AI Performance on African Languages in Digital Spaces
- Title(参考訳): 言語多様性: デジタル空間におけるアフリカの言語における言語使用量とAIパフォーマンスの評価
- Authors: Edward Ajayi, Eudoxie Umwari, Mawuli Deku, Prosper Singadi, Jules Udahemuka, Bekalu Tadele, Chukuemeka Edeh,
- Abstract要約: 本研究では,アフリカの言語のデジタル表現と現在の言語検出ツールの課題について検討する。
ヨルバ,キンヤルワンダ,アムハラでの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the digital representation of African languages and the challenges this presents for current language detection tools. We evaluate their performance on Yoruba, Kinyarwanda, and Amharic. While these languages are spoken by millions, their online usage on conversational platforms is often sparse, heavily influenced by English, and not representative of the authentic, monolingual conversations prevalent among native speakers. This lack of readily available authentic data online creates a challenge of scarcity of conversational data for training language models. To investigate this, data was collected from subreddits and local news sources for each language. The analysis showed a stark contrast between the two sources. Reddit data was minimal and characterized by heavy code-switching. Conversely, local news media offered a robust source of clean, monolingual language data, which also prompted more user engagement in the local language on the news publishers social media pages. Language detection models, including the specialized AfroLID and a general LLM, performed with near-perfect accuracy on the clean news data but struggled with the code-switched Reddit posts. The study concludes that professionally curated news content is a more reliable and effective source for training context-rich AI models for African languages than data from conversational platforms. It also highlights the need for future models that can process clean and code-switched text to improve the detection accuracy for African languages.
- Abstract(参考訳): 本研究では,アフリカの言語のデジタル表現と現在の言語検出ツールの課題について検討する。
ヨルバ,キンヤルワンダ,アムハラでの評価を行った。
これらの言語は何百万人もの人々によって話されているが、会話プラットフォームでのオンライン使用は、しばしば疎外されており、英語の影響を強く受けており、母国語話者の間で流行する真正でモノリンガルな会話を代表していない。
オンラインで利用可能な認証データの欠如は、言語モデルをトレーニングするための会話データの不足を招きかねない。
これを調べるために、各言語について、サブレディットとローカルニュースソースからデータを収集した。
この分析は2つの情報源の間に大きなコントラストを示した。
Redditのデータは最小限で、コードの切り替えが特徴だ。
逆に、ローカルニュースメディアは、クリーンでモノリンガルな言語データの堅牢な情報源を提供し、また、ニュースパブリッシャーのソーシャルメディアページ上で、ローカル言語へのより多くのユーザーエンゲージメントを促した。
特殊なAfroLIDや一般的なLLMを含む言語検出モデルは、クリーンなニュースデータに対してほぼ完璧な精度で実行されましたが、コード変更されたRedditの投稿に苦労しました。
この研究は、プロのキュレートされたニュースコンテンツは、会話プラットフォームからのデータよりも、アフリカ言語のための文脈に富んだAIモデルを訓練するための信頼性が高く効果的な情報源である、と結論付けている。
また、アフリカの言語の検出精度を向上させるために、クリーンでコードに切り替えられたテキストを処理できる将来のモデルの必要性を強調している。
関連論文リスト
- Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages [0.0]
本研究では,ナイジェリアの3大言語であるHausa,Yoruba,Igboにおいて,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。
私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。
学習済み言語モデルを用いて、データセット中の攻撃的言語の検出の有効性を評価し、最高の性能モデルが90%の精度で達成した。
論文 参考訳(メタデータ) (2024-06-04T09:58:29Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。