論文の概要: AfroScope: A Framework for Studying the Linguistic Landscape of Africa
- arxiv url: http://arxiv.org/abs/2601.13346v1
- Date: Mon, 19 Jan 2026 19:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.035083
- Title: AfroScope: A Framework for Studying the Linguistic Landscape of Africa
- Title(参考訳): AfroScope:アフリカにおける言語景観研究の枠組み
- Authors: Sang Yun Kwon, AbdelRahim Elmadany, Muhammad Abdul-Mageed,
- Abstract要約: AfroScope-Data や AfroScope-Models など,アフリカの LID 統合フレームワークである AfroScope を紹介する。
地理的に近縁な29の言語を対象とする特殊な埋め込みモデルであるMirror-Serengetiを活用する階層型分類手法を提案する。
我々は言語間移動とドメイン効果を分析し、アフリカにおける堅牢なLIDシステム構築のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 27.262469904340836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Identification (LID) is the task of determining the language of a given text and is a fundamental preprocessing step that affects the reliability of downstream NLP applications. While recent work has expanded LID coverage for African languages, existing approaches remain limited in (i) the number of supported languages and (ii) their ability to make fine-grained distinctions among closely related varieties. We introduce AfroScope, a unified framework for African LID that includes AfroScope-Data, a dataset covering 713 African languages, and AfroScope-Models, a suite of strong LID models with broad language coverage. To better distinguish highly confusable languages, we propose a hierarchical classification approach that leverages Mirror-Serengeti, a specialized embedding model targeting 29 closely related or geographically proximate languages. This approach improves macro F1 by 4.55 on this confusable subset compared to our best base model. Finally, we analyze cross linguistic transfer and domain effects, offering guidance for building robust African LID systems. We position African LID as an enabling technology for large scale measurement of Africas linguistic landscape in digital text and release AfroScope-Data and AfroScope-Models publicly.
- Abstract(参考訳): 言語識別(Language Identification、LID)は、あるテキストの言語を決定するタスクであり、下流のNLPアプリケーションの信頼性に影響を与える基本的な前処理ステップである。
最近の研究は、アフリカ言語のLIDカバレッジを拡大しているが、既存のアプローチは制限されている。
(i)サポート言語数及びサポート言語数
(二)近縁品種の細粒度を区別する能力。
AfroScopeは713のアフリカ言語をカバーするデータセットであるAfroScope-Dataと、幅広い言語をカバーする強力なLIDモデルのスイートであるAfroScope-Modelsを含んでいる。
高度に難解な言語をよりよく区別するために,ミラー・セレンゲティ(Mirror-Serengeti)を用いた階層型分類手法を提案する。
このアプローチは、最もよいベースモデルと比較して、この不完全なサブセット上で、マクロF1を4.55改善する。
最後に,言語間移動とドメイン効果を分析し,アフリカにおける堅牢なLIDシステム構築のためのガイダンスを提供する。
我々はアフリカ LID をデジタルテキストにおけるアフリカ言語景観の大規模計測を可能にする技術として位置づけ、AfroScope-Data と AfroScope-Models を公開している。
関連論文リスト
- Designing and Contextualising Probes for African Languages [3.161415847253143]
本稿では,アフリカ言語に関する言語知識のためのPLMの探索に関する最初の体系的研究について述べる。
我々は6つの類型的多様性を持つアフリカの言語に対して、言語的特徴がどのように分散されているかを分析するために、階層的プローブを訓練する。
アフリカ語に適応した PLM は,多言語 PLM よりも対象言語に関する言語情報をエンコードする。
論文 参考訳(メタデータ) (2025-05-15T08:35:14Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroLID: A Neural Language Identification Tool for African Languages [5.945320097465418]
AfroLIDは517ドルのアフリカの言語と品種のためのニューラルネットワークLIDツールキットである。
それは、5つの正書法システムを利用する14の言語ファミリーから手作業でキュレートされたマルチドメインのWebデータセットを利用する。
論文 参考訳(メタデータ) (2022-10-21T05:45:50Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。