論文の概要: Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation
- arxiv url: http://arxiv.org/abs/2510.09051v1
- Date: Fri, 10 Oct 2025 06:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.291177
- Title: Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation
- Title(参考訳): Alif:多言語合成データ蒸留によるウルドゥー大言語モデルの改善
- Authors: Muhammad Ali Shafique, Kanwal Mehreen, Muhammad Arham, Maaz Amjad, Sabur Butt, Hamza Farooq,
- Abstract要約: 我々は多言語Urdu- EnglishモデルであるAlif-1.0-8B-Instructを提案する。
高品質な多言語合成データセット(Urdu-Instruct)でモデルを訓練する。
このデータセットには、Urdu-native chain-of-thinktベースの推論、バイリンガル翻訳、文化的関連性、倫理的安全性アライメントが含まれている。
Alif-1.0-8B-インストラクトは、訓練済みのLlama-3.1-8Bをベースとしており、ウルドゥー仕様のLlama-3.1-8B-インストラクトよりも優れた性能を示している。
- 参考スコア(独自算出の注目度): 2.2358141175019184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing a high-performing large language models (LLMs) for low-resource languages such as Urdu, present several challenges. These challenges include the scarcity of high-quality datasets, multilingual inconsistencies, and safety concerns. Existing multilingual LLMs often address these issues by translating large volumes of available data. However, such translations often lack quality and cultural nuance while also incurring significant costs for data curation and training. To address these issues, we propose Alif-1.0-8B-Instruct, a multilingual Urdu-English model, that tackles these challenges with a unique approach. We train the model on a high-quality, multilingual synthetic dataset (Urdu-Instruct), developed using a modified self-instruct technique. By using unique prompts and seed values for each task along with a global task pool, this dataset incorporates Urdu-native chain-of-thought based reasoning, bilingual translation, cultural relevance, and ethical safety alignments. This technique significantly enhances the comprehension of Alif-1.0-8B-Instruct model for Urdu-specific tasks. As a result, Alif-1.0-8B-Instruct, built upon the pretrained Llama-3.1-8B, demonstrates superior performance compared to Llama-3.1-8B-Instruct for Urdu specific-tasks. It also outperformed leading multilingual LLMs, including Mistral-7B-Instruct-v0.3, Qwen-2.5-7B-Instruct, and Cohere-Aya-Expanse-8B, all within a training budget of under $100. Our results demonstrate that high-performance and low-resource language LLMs can be developed efficiently and culturally aligned using our modified self-instruct approach. All datasets, models, and code are publicly available at: https://github.com/traversaal-ai/alif-urdu-llm.
- Abstract(参考訳): Urduのような低リソース言語向けの高性能な大規模言語モデル(LLM)の開発には、いくつかの課題がある。
これらの課題には、高品質なデータセットの不足、多言語不整合、安全上の懸念などが含まれる。
既存の多言語 LLM は、利用可能な大量のデータを翻訳することで、これらの問題に対処することが多い。
しかし、こうした翻訳は品質や文化的なニュアンスに欠けることが多く、データキュレーションやトレーニングに多大なコストがかかる。
これらの問題に対処するため,多言語Urdu- EnglishモデルであるAlif-1.0-8B-Instructを提案する。
改良された自己インストラクト技術を用いて,高品質な多言語合成データセット(Urdu-Instruct)を用いてモデルを訓練する。
このデータセットは、各タスクのユニークなプロンプトとシード値とグローバルタスクプールを使用することで、Urdu-native chain-of-thinktベースの推論、バイリンガル翻訳、文化的関連性、倫理的安全性アライメントを組み込む。
この技術は、Urdu固有のタスクに対するAlif-1.0-8B-Instructモデルの理解を著しく向上させる。
その結果、事前訓練されたLlama-3.1-8BをベースとしたAlif-1.0-8B-Instructは、Urdu仕様のLlama-3.1-8B-Instructよりも優れた性能を示した。
また、Mistral-7B-Instruct-v0.3、Qwen-2.5-7B-Instruct、Cohere-Aya-Expanse-8Bなど、訓練予算が100ドル未満の先進多言語LLMよりも性能が優れていた。
提案手法を用いて,高性能かつ低リソースなLDMを効率的に,かつ文化的に整合性を持たせることができることを示す。
すべてのデータセット、モデル、コードは、https://github.com/traversaal-ai/alif-urdu-llm.comで公開されている。
関連論文リスト
- UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets [2.8123257987021058]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。
我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。
微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2024-02-12T19:25:11Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。