論文の概要: Qalb: Largest State-of-the-Art Urdu Large Language Model for 230M Speakers with Systematic Continued Pre-training
- arxiv url: http://arxiv.org/abs/2601.08141v1
- Date: Tue, 13 Jan 2026 02:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.019141
- Title: Qalb: Largest State-of-the-Art Urdu Large Language Model for 230M Speakers with Systematic Continued Pre-training
- Title(参考訳): Qalb: 体系的事前学習を継続する2億3000万話者のための最大のUrdu大言語モデル
- Authors: Muhammad Taimoor Hassan, Jawad Ahmed, Muhammad Awais,
- Abstract要約: ウルドゥー語は、2億3000万人以上の人々が話しており、現代のNLPシステムでは批判的に不足している。
2段階のアプローチで開発された言語モデルであるQalbを紹介した。
この結果から,多種多様な高品質な言語データに対する事前学習が,目標とする命令の微調整と相まって,基礎モデルを低リソース言語に効果的に適用できることが示唆された。
- 参考スコア(独自算出の注目度): 3.950299047992185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite remarkable progress in large language models, Urdu-a language spoken by over 230 million people-remains critically underrepresented in modern NLP systems. Existing multilingual models demonstrate poor performance on Urdu-specific tasks, struggling with the language's complex morphology, right-to-left Nastaliq script, and rich literary traditions. Even the base LLaMA-3.1 8B-Instruct model shows limited capability in generating fluent, contextually appropriate Urdu text. We introduce Qalb, an Urdu language model developed through a two-stage approach: continued pre-training followed by supervised fine-tuning. Starting from LLaMA 3.1 8B, we perform continued pre-training on a dataset of 1.97 billion tokens. This corpus comprises 1.84 billion tokens of diverse Urdu text-spanning news archives, classical and contemporary literature, government documents, and social media-combined with 140 million tokens of English Wikipedia data to prevent catastrophic forgetting. We then fine-tune the resulting model on the Alif Urdu-instruct dataset. Through extensive evaluation on Urdu-specific benchmarks, Qalb demonstrates substantial improvements, achieving a weighted average score of 90.34 and outperforming the previous state-of-the-art Alif-1.0-Instruct model (87.1) by 3.24 points, while also surpassing the base LLaMA-3.1 8B-Instruct model by 44.64 points. Qalb achieves state-of-the-art performance with comprehensive evaluation across seven diverse tasks including Classification, Sentiment Analysis, and Reasoning. Our results demonstrate that continued pre-training on diverse, high-quality language data, combined with targeted instruction fine-tuning, effectively adapts foundation models to low-resource languages.
- Abstract(参考訳): 大規模な言語モデルでは顕著な進歩があったが、2億3000万人以上の人々が話していたウルドゥー語は、現代のNLPシステムでは過小評価されている。
既存の多言語モデルでは、ウルドゥー語の複雑な形態学、右から左へのナスタリク文字、豊かな文学的伝統に苦慮している。
ベースとなるLLaMA-3.1 8B-インストラクトモデルでさえ、流動的で文脈的に適切なUrduテキストを生成する能力に限界がある。
2段階のアプローチで開発された言語モデルであるQalbを紹介した。
LLaMA 3.1 8Bから始まり、97億のトークンのデータセット上で、引き続き事前トレーニングを行います。
このコーパスは、Urduのテキストスパンニングニュースアーカイブ、古典的、現代文学、政府文書、そしてソーシャルメディアに1億4000万の英語のウィキペディアデータと組み合わせて、破滅的な忘れを防いでいる。
次に、Alif Urdu-instruct データセットで得られたモデルを微調整する。
ウルドゥー固有のベンチマークの広範な評価により、Qalbは90.34の重み付き平均スコアを達成し、以前の最先端のAlif-1.0-インストラクトモデル(87.1)を3.24ポイント上回り、ベースとなるLLaMA-3.1 8B-インストラクトモデルも44.64ポイント上回った。
Qalbは、分類、知覚分析、推論を含む7つのタスクを総合的に評価することで、最先端のパフォーマンスを達成する。
この結果から,多種多様な高品質な言語データに対する事前学習が,目標とする命令の微調整と相まって,基礎モデルを低リソース言語に効果的に適用できることが示唆された。
関連論文リスト
- Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation [2.2358141175019184]
我々は多言語Urdu- EnglishモデルであるAlif-1.0-8B-Instructを提案する。
高品質な多言語合成データセット(Urdu-Instruct)でモデルを訓練する。
このデータセットには、Urdu-native chain-of-thinktベースの推論、バイリンガル翻訳、文化的関連性、倫理的安全性アライメントが含まれている。
Alif-1.0-8B-インストラクトは、訓練済みのLlama-3.1-8Bをベースとしており、ウルドゥー仕様のLlama-3.1-8B-インストラクトよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-10-10T06:41:02Z) - UrBLiMP: A Benchmark for Evaluating the Linguistic Competence of Large Language Models in Urdu [12.952822154200497]
言語最小ペア(UrBLiMP)のUrduベンチマークについて述べる。
UrBLiMPは10コアの構文現象を対象とする5,696個の最小ペアから構成される。
UrBLiMPアノテーションの人間による評価は96.10%のアノテーション間の合意を得た。
論文 参考訳(メタデータ) (2025-08-01T18:16:37Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。