論文の概要: AfroScope: A Framework for Studying the Linguistic Landscape of Africa
- arxiv url: http://arxiv.org/abs/2601.13346v1
- Date: Mon, 19 Jan 2026 19:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.035083
- Title: AfroScope: A Framework for Studying the Linguistic Landscape of Africa
- Title(参考訳): AfroScope:アフリカにおける言語景観研究の枠組み
- Authors: Sang Yun Kwon, AbdelRahim Elmadany, Muhammad Abdul-Mageed,
- Abstract要約: AfroScope-Data や AfroScope-Models など,アフリカの LID 統合フレームワークである AfroScope を紹介する。
地理的に近縁な29の言語を対象とする特殊な埋め込みモデルであるMirror-Serengetiを活用する階層型分類手法を提案する。
我々は言語間移動とドメイン効果を分析し、アフリカにおける堅牢なLIDシステム構築のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 27.262469904340836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Identification (LID) is the task of determining the language of a given text and is a fundamental preprocessing step that affects the reliability of downstream NLP applications. While recent work has expanded LID coverage for African languages, existing approaches remain limited in (i) the number of supported languages and (ii) their ability to make fine-grained distinctions among closely related varieties. We introduce AfroScope, a unified framework for African LID that includes AfroScope-Data, a dataset covering 713 African languages, and AfroScope-Models, a suite of strong LID models with broad language coverage. To better distinguish highly confusable languages, we propose a hierarchical classification approach that leverages Mirror-Serengeti, a specialized embedding model targeting 29 closely related or geographically proximate languages. This approach improves macro F1 by 4.55 on this confusable subset compared to our best base model. Finally, we analyze cross linguistic transfer and domain effects, offering guidance for building robust African LID systems. We position African LID as an enabling technology for large scale measurement of Africas linguistic landscape in digital text and release AfroScope-Data and AfroScope-Models publicly.
- Abstract(参考訳): 言語識別(Language Identification、LID)は、あるテキストの言語を決定するタスクであり、下流のNLPアプリケーションの信頼性に影響を与える基本的な前処理ステップである。
最近の研究は、アフリカ言語のLIDカバレッジを拡大しているが、既存のアプローチは制限されている。
(i)サポート言語数及びサポート言語数
(二)近縁品種の細粒度を区別する能力。
AfroScopeは713のアフリカ言語をカバーするデータセットであるAfroScope-Dataと、幅広い言語をカバーする強力なLIDモデルのスイートであるAfroScope-Modelsを含んでいる。
高度に難解な言語をよりよく区別するために,ミラー・セレンゲティ(Mirror-Serengeti)を用いた階層型分類手法を提案する。
このアプローチは、最もよいベースモデルと比較して、この不完全なサブセット上で、マクロF1を4.55改善する。
最後に,言語間移動とドメイン効果を分析し,アフリカにおける堅牢なLIDシステム構築のためのガイダンスを提供する。
我々はアフリカ LID をデジタルテキストにおけるアフリカ言語景観の大規模計測を可能にする技術として位置づけ、AfroScope-Data と AfroScope-Models を公開している。
関連論文リスト
- Scaling HuBERT for African Languages: From Base to Large and XL [0.5825599299113071]
本研究では,SSA-HuBERT-Large(317Mパラメータ),SSA-HuBERT-XL(964Mパラメータ)を紹介する。
最初の大きなモデルは、BASEサイズと並んで、アフリカ語のみに訓練された。
サブサハラ語にのみ焦点をあてた注意深く制御された実験を行い、大規模アーキテクチャが大規模オーディオデータセットを効果的に活用することで性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-11-28T17:17:40Z) - Mafoko: Structuring and Building Open Multilingual Terminologies for South African NLP [3.0720023574418622]
本稿では,アフリカ中心のNOODLフレームワークを用いて,基礎となるMafokoデータセットについて紹介する。
実験では、英語からツシヴェンダ語への機械翻訳の精度とドメイン固有の一貫性が大幅に向上した。
論文 参考訳(メタデータ) (2025-08-05T15:00:02Z) - Designing and Contextualising Probes for African Languages [3.161415847253143]
本稿では,アフリカ言語に関する言語知識のためのPLMの探索に関する最初の体系的研究について述べる。
我々は6つの類型的多様性を持つアフリカの言語に対して、言語的特徴がどのように分散されているかを分析するために、階層的プローブを訓練する。
アフリカ語に適応した PLM は,多言語 PLM よりも対象言語に関する言語情報をエンコードする。
論文 参考訳(メタデータ) (2025-05-15T08:35:14Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroLID: A Neural Language Identification Tool for African Languages [5.945320097465418]
AfroLIDは517ドルのアフリカの言語と品種のためのニューラルネットワークLIDツールキットである。
それは、5つの正書法システムを利用する14の言語ファミリーから手作業でキュレートされたマルチドメインのWebデータセットを利用する。
論文 参考訳(メタデータ) (2022-10-21T05:45:50Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。