論文の概要: Shona spaCy: A Morphological Analyzer for an Under-Resourced Bantu Language
- arxiv url: http://arxiv.org/abs/2511.16680v1
- Date: Wed, 12 Nov 2025 09:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.216487
- Title: Shona spaCy: A Morphological Analyzer for an Under-Resourced Bantu Language
- Title(参考訳): Shona spaCy: アンダーソースバントゥー言語のための形態解析器
- Authors: Happymore Masoka,
- Abstract要約: Shona spaCyはBantu言語のためのオープンソースの計算形態解析ツールである。
語彙と規則を組み合わせて、名詞クラスの接頭辞、動詞の主語、テンソル・アスペクト・マーカー、イデオフォーン、およびクレティテスをモデル化する。
その精度は90%のPOSタグ精度と88%の形態的特徴精度である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advances in multilingual natural language processing (NLP), the Bantu language Shona remains under-served in terms of morphological analysis and language-aware tools. This paper presents Shona spaCy, an open-source, rule-based morphological pipeline for Shona built on the spaCy framework. The system combines a curated JSON lexicon with linguistically grounded rules to model noun-class prefixes (Mupanda 1-18), verbal subject concords, tense-aspect markers, ideophones, and clitics, integrating these into token-level annotations for lemma, part-of-speech, and morphological features. The toolkit is available via pip install shona-spacy, with source code at https://github.com/HappymoreMasoka/shona-spacy and a PyPI release at https://pypi.org/project/shona-spacy/0.1.4/. Evaluation on formal and informal Shona corpora yields 90% POS-tagging accuracy and 88% morphological-feature accuracy, while maintaining transparency in its linguistic decisions. By bridging descriptive grammar and computational implementation, Shona spaCy advances NLP accessibility and digital inclusion for Shona speakers and provides a template for morphological analysis tools for other under-resourced Bantu languages.
- Abstract(参考訳): 多言語自然言語処理(NLP)の急速な進歩にもかかわらず、バントゥー語のShonaは、形態解析や言語認識ツールの分野では未整備のままである。
本稿では,paCy フレームワーク上に構築された Shona 用オープンソースのルールベースの形態素パイプラインである Shona spaCy について述べる。
このシステムは、訓練されたJSONレキシコンと言語的に根ざした規則を組み合わせて、名詞クラスの接頭辞をモデル化し(Mupanda 1-18)、動詞のコンコード、テンソル・アスペクト・マーカー、イデオフォン、およびクレティクスを補足し、これらを補題、パート・オブ・音声、形態学的特徴のためのトークンレベルのアノテーションに統合する。
ソースコードはhttps://github.com/HappymoreMasoka/shona-spacyで、PyPIはhttps://pypi.org/project/shona-spacy/0.1.4/で入手できる。
形式的および非公式なショナコーパスの評価では、90%のPOSタグ精度と88%の形態的精度が得られ、言語的決定の透明性を維持している。
記述文法と計算実装をブリッジすることで、Shona spaCyは、Shona話者に対するNLPアクセシビリティとデジタル包摂性を向上し、他のアンダーリソースのBantu言語に対する形態解析ツールのテンプレートを提供する。
関連論文リスト
- MoVoC: Morphology-Aware Subword Construction for Geez Script Languages [7.7761618950496265]
サブワードベースのトークン化法は、しばしば形態的境界を維持するのに失敗する。
我々はMoVoC(Morpheme-aware Subword Vocabulary Construction)とMoVoC-Tokをトレーニングする。
論文 参考訳(メタデータ) (2025-09-10T17:45:10Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z) - Stanza: A Python Natural Language Processing Toolkit for Many Human
Languages [44.8226642800919]
我々は,オープンソースのPython自然言語処理ツールキットであるStanzaを紹介した。
Stanzaは、トークン化、マルチワードトークン拡張、レムマティゼーション、パート・オブ・音声、形態的特徴タグ付けなど、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。
我々は、Universal Dependencies Treebanksや他の多言語コーパスを含む、合計112のデータセットでStanzaをトレーニングしました。
論文 参考訳(メタデータ) (2020-03-16T09:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。