論文の概要: Zero-Shot Morphological Discovery in Low-Resource Bantu Languages via Cross-Lingual Transfer and Unsupervised Clustering
- arxiv url: http://arxiv.org/abs/2604.22723v1
- Date: Fri, 24 Apr 2026 17:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.542263
- Title: Zero-Shot Morphological Discovery in Low-Resource Bantu Languages via Cross-Lingual Transfer and Unsupervised Clustering
- Title(参考訳): 言語間移動と教師なしクラスタリングによる低資源バントゥー言語におけるゼロショット形態的発見
- Authors: Hillary Mutisya, John Mugane,
- Abstract要約: 本稿では,言語間変換学習と教師なしクラスタリングを組み合わせることで,低リソースバントゥー言語における形態的特徴を発見する手法を提案する。
我々のパイプラインは,2,455語の名詞クラス割り当てを発見し,以前は文書化されていなかった2つの形態素パターンを同定する。
私たちはすべてのコードをリリースし、低リソースのBantu言語のための形態学的ドキュメントをサポートするためにレキシコンを発見しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for discovering morphological features in low-resource Bantu languages by combining cross-lingual transfer learning with unsupervised clustering. Applied to Giriama (nyf), a language with only 91 labeled paradigms, our pipeline discovers noun class assignments for 2,455 words and identifies two previously undocumented morphological patterns: an a- prefix variant for Class 2 (vowel coalescence - the merger of two adjacent vowels - of wa-, 95.1% consistency) and a contracted k'- prefix (98.5% consistency). External validation on 444 known Giriama verb paradigms confirms 78.2% lemmatization accuracy, while a v3 corpus expansion to 19,624 words (9,014 unique lemmas) achieves 97.3% segmentation and 86.7% lemmatization rates across all major word classes. Our ensemble of transfer learning from Swahili and unsupervised clustering, combined via weighted voting, exploits complementary strengths: transfer excels at cognate detection (leveraging ~60% vocabulary overlap) while clustering discovers language-specific innovations invisible to transfer. We release all code and discovered lexicons to support morphological documentation for low-resource Bantu languages.
- Abstract(参考訳): 本稿では,言語間変換学習と教師なしクラスタリングを組み合わせることで,低リソースバントゥー言語における形態的特徴を発見する手法を提案する。
我々のパイプラインは、91のラベル付きパラダイムを持つ言語であるGariama(nyf)に応用し、2,455語の名詞クラス割り当てを発見し、以前は文書化されていなかった2つの形態素パターンを識別する: クラス2のa-プレフィックス(母音の合体 - 隣接母音の合併 - 95.1%の一貫性)と、k'-プレフィックス(98.5%の一貫性)。
444の既知のGariama動詞パラダイムの外部検証では、78.2%のレムマ化精度が確認され、v3コーパスは19,624語(9,014のユニークなレムマ)に拡張され、97.3%のセグメンテーションと86.7%のレムマ化率を達成した。
スワヒリ語からの移動学習と教師なしクラスタリングのアンサンブルは、重み付け投票と組み合わせて、補完的な強みを生かしている。
私たちはすべてのコードをリリースし、低リソースのBantu言語のための形態学的ドキュメントをサポートするためにレキシコンを発見しました。
関連論文リスト
- Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data [0.0]
現代の形態データに特化して訓練された神経モデルは、歴史的復元と整合した言語間の語彙構造を復元することができる。
14の東バントゥー語と南バントゥー語を分析し、5以上の言語で共有される728の名詞と1,525の動詞を識別する。
論文 参考訳(メタデータ) (2026-04-24T17:27:26Z) - Happiness is Sharing a Vocabulary: A Study of Transliteration Methods [11.101903956523094]
翻訳は多言語NLPにおける様々な言語間のギャップを埋めるための有望な手段として登場した。
共用スクリプト,重複するトークン語彙,共有音韻が多言語モデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-10-12T22:34:40Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Improving Zero-shot Cross-lingual Transfer between Closely Related
Languages by injecting Character-level Noise [26.33252528975464]
高資源言語とその方言や近縁言語との言語間移動は、その類似性によって促進されるべきである。
文字レベルの雑音で高リソースの親言語のデータを増大させることで、近縁な品種間の言語間移動を改善するための、単純かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2021-09-14T15:38:08Z) - Cross-Lingual Transfer Learning for Complex Word Identification [0.3437656066916039]
複合単語識別(CWI)は、テキスト中の難解な単語を検出することに焦点を当てたタスクである。
我々のアプローチでは、自然言語処理(NLP)タスクのための最先端のソリューションとともに、ゼロショット、ワンショット、および少数ショットの学習技術を使用します。
本研究の目的は,多言語環境下で複雑な単語の特徴を学習できることを示すことである。
論文 参考訳(メタデータ) (2020-10-02T17:09:47Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。