論文の概要: Exploring Cross-Lingual Knowledge Transfer via Transliteration-Based MLM Fine-Tuning for Critically Low-resource Chakma Language
- arxiv url: http://arxiv.org/abs/2510.09032v1
- Date: Fri, 10 Oct 2025 06:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.199218
- Title: Exploring Cross-Lingual Knowledge Transfer via Transliteration-Based MLM Fine-Tuning for Critically Low-resource Chakma Language
- Title(参考訳): 翻訳に基づくMLMファインチューニングによる言語間知識伝達の探索
- Authors: Adity Khisa, Nusrat Jahan Lia, Tasnim Mahfuz Nafis, Zarif Masud, Tanzir Pial, Shebuti Rayana, Ahmedul Kabir,
- Abstract要約: 限られたデータしか持たないインド・アーリア語として、チャクマは言語モデルにおいてほとんど表現されていない。
本稿では,チャクマ文学からキュレートされ,母語話者によって検証された,文脈的にコヒーレントなバングラ文字翻訳チャクマの新たなコーパスを紹介する。
実験により、微調整された多言語モデルは、バングラ文字のチャクマに適応する際、事前訓練されたモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 1.4206084598312039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an Indo-Aryan language with limited available data, Chakma remains largely underrepresented in language models. In this work, we introduce a novel corpus of contextually coherent Bangla-transliterated Chakma, curated from Chakma literature, and validated by native speakers. Using this dataset, we fine-tune six encoder-based multilingual and regional transformer models (mBERT, XLM-RoBERTa, DistilBERT, DeBERTaV3, BanglaBERT, and IndicBERT) on masked language modeling (MLM) tasks. Our experiments show that fine-tuned multilingual models outperform their pre-trained counterparts when adapted to Bangla-transliterated Chakma, achieving up to 73.54% token accuracy and a perplexity as low as 2.90. Our analysis further highlights the impact of data quality on model performance and shows the limitations of OCR pipelines for morphologically rich Indic scripts. Our research demonstrates that Bangla-transliterated Chakma can be very effective for transfer learning for Chakma language, and we release our manually validated monolingual dataset to encourage further research on multilingual language modeling for low-resource languages.
- Abstract(参考訳): 限られたデータしか持たないインド・アーリア語として、チャクマは言語モデルにおいてほとんど表現されていない。
本研究は,チャクマ文学からキュレートされ,母語話者によって検証された,文脈的にコヒーレントなバングラ音訳チャクマの新たなコーパスを紹介する。
このデータセットを用いて、マスク言語モデリング(MLM)タスク上で、6つのエンコーダベースの多言語変換モデル(mBERT, XLM-RoBERTa, DistilBERT, DeBERTaV3, BanglaBERT, IndicBERT)を微調整する。
実験の結果,バングラ語に翻訳されたチャクマ語に適応すると,微調整された多言語モデルの方が,トークンの精度が73.54%,難易度が2.90まで向上することがわかった。
我々の分析は、データ品質がモデル性能に与える影響をさらに強調し、形態的にリッチなIndicスクリプトのためのOCRパイプラインの限界を示す。
本研究は,Bangla-transliterated ChakmaがChakma言語への翻訳学習に非常に有効であることを実証し,低リソース言語のための多言語言語モデリングのさらなる研究を促進するために,手作業による検証済みモノリンガルデータセットをリリースする。
関連論文リスト
- Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text [5.908448629364552]
ローマ・ウルドゥー語文における攻撃的言語検出を改善するためのQLoRAに基づく微調整フレームワークを提案する。
ローマ・ウルドゥー語と英語の混成データセットをGoogle Translateを使って英語に翻訳し、英語のLLMを活用する。
私たちはMeta LLaMA 3 8B、Mistral 7B v0.1、LLaMA 2 7B、ModernBERT、RoBERTaなど、いくつかのトランスフォーマーと大規模言語モデルを微調整した。
論文 参考訳(メタデータ) (2025-10-04T05:38:46Z) - Cross-lingual transfer of multilingual models on low resource African Languages [0.20793001310272596]
単一の言語で訓練されたモノリンガルモデルは、ターゲット言語のニュアンスをよりよく捉えることができる。
AfriBERTは微調整後に最高88.3%の言語間精度を達成した。
BiGRUは83.3%の精度で最高のパフォーマンスのニューラルモデルとして登場した。
論文 参考訳(メタデータ) (2024-09-17T08:05:40Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Learning Disentangled Semantic Representations for Zero-Shot
Cross-Lingual Transfer in Multilingual Machine Reading Comprehension [40.38719019711233]
マルチリンガル事前学習モデルは、機械読取理解(MRC)において、リッチリソース言語から低リソース言語への移行知識をゼロショットで得ることができる
本稿では,シメセマンティック・ディスタングルメント・モデル(SSDM)を用いた,多言語事前学習モデルで学習した表現の構文から意味論を解離させる新しい多言語MRCフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-03T05:26:42Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。