論文の概要: UrduLM: A Resource-Efficient Monolingual Urdu Language Model
- arxiv url: http://arxiv.org/abs/2601.17664v1
- Date: Sun, 25 Jan 2026 02:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.1202
- Title: UrduLM: A Resource-Efficient Monolingual Urdu Language Model
- Title(参考訳): UrduLM: リソース効率の良い単言語Urdu言語モデル
- Authors: Syed Muhammad Ali, Hammad Sajid, Zainab Haider, Ali Muhammad Asad, Haya Fatima, Abdul Samad,
- Abstract要約: 世界中の2億3000万人が話すUrduには、トランスフォーマーベースの言語モデルがない。
本稿では,低リソース環境下で訓練されたUrdu単言語モデルであるUrduLMを提案する。
数ショットの評価では、UrduLMは最大30倍の大きさの多言語モデルと競合する性能を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Urdu, spoken by 230 million people worldwide, lacks dedicated transformer-based language models and curated corpora. While multilingual models provide limited Urdu support, they suffer from poor performance, high computational costs, and cultural inaccuracies due to insufficient training data. To address these challenges, we present UrduLM, a pretrained Urdu monolingual language model trained in low-resource settings. We curate a 33GB Urdu corpus from diverse sources, develop a custom BPE tokenizer that reduces tokenization overhead by atleast 20-30% compared to multilingual alternatives, and pretrain a 100M-parameter decoder-only model. In few-shot evaluations, UrduLM achieves competitive performance with multilingual models up to 30x its size, reaching 66.6% accuracy on sentiment classification and BLEU scores exceeding 30 on grammar correction tasks. The complete methodology -- including corpus, tokenizer, model weights, and evaluation benchmarks -- is released openly to establish a baseline for Urdu NLP research and provide a scalable framework for other underrepresented languages.
- Abstract(参考訳): 世界中の2億3000万人が話すUrduには、トランスフォーマーベースの言語モデルとコーパスのキュレーションがない。
マルチ言語モデルはUrduの限られたサポートを提供するが、訓練データ不足による性能の低下、高い計算コスト、文化的不正確さに悩まされている。
これらの課題に対処するために、低リソース環境で訓練されたUrduモノリンガル言語モデルであるUrduLMを提案する。
多様なソースから33GBのUrduコーパスをキュレートし、マルチリンガルな代替品と比較してトークン化オーバーヘッドを最大20~30%削減するカスタムなBPEトークンライザを開発し、100Mパラメータデコーダのみのモデルを事前訓練する。
数点の評価では、UrduLMは最大30倍の大きさの多言語モデルとの競合性能を達成し、感情分類では66.6%、文法修正ではBLEUスコアが30を超えている。
コーパス、トークンエーザ、モデルウェイト、評価ベンチマークを含む完全な方法論が公開され、Urdu NLP研究のベースラインを確立し、他の未表現言語のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Qalb: Largest State-of-the-Art Urdu Large Language Model for 230M Speakers with Systematic Continued Pre-training [3.950299047992185]
ウルドゥー語は、2億3000万人以上の人々が話しており、現代のNLPシステムでは批判的に不足している。
2段階のアプローチで開発された言語モデルであるQalbを紹介した。
この結果から,多種多様な高品質な言語データに対する事前学習が,目標とする命令の微調整と相まって,基礎モデルを低リソース言語に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2026-01-13T02:05:05Z) - UrBLiMP: A Benchmark for Evaluating the Linguistic Competence of Large Language Models in Urdu [12.952822154200497]
言語最小ペア(UrBLiMP)のUrduベンチマークについて述べる。
UrBLiMPは10コアの構文現象を対象とする5,696個の最小ペアから構成される。
UrBLiMPアノテーションの人間による評価は96.10%のアノテーション間の合意を得た。
論文 参考訳(メタデータ) (2025-08-01T18:16:37Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Memory-efficient NLLB-200: Language-specific Expert Pruning of a
Massively Multilingual Machine Translation Model [92.91310997807936]
NLLB-200は202言語をカバーする多言語ニューラルネットワークモデルである。
そこで本研究では,最大80%のエキスパートの除去を,それ以上の微調整を行なわずに行うことができるプルーニング法を提案する。
論文 参考訳(メタデータ) (2022-12-19T19:29:40Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。