論文の概要: Soro: A Lightweight Foundation Model and Chatbot for Tajik
- arxiv url: http://arxiv.org/abs/2605.27379v2
- Date: Thu, 28 May 2026 05:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.506419
- Title: Soro: A Lightweight Foundation Model and Chatbot for Tajik
- Title(参考訳): Soro: Tajikの軽量ファンデーションモデルとチャットボット
- Authors: Stanislav Liashkov, Haitz Sáez de Ocáriz Borde, Azizjon Azimi, Khushbakht Shoymardonov, Shuhratjon Khalilbekov, Bonu Boboeva,
- Abstract要約: 本稿では,タジキスタンにおける厳密な計算および接続制約下での現実的な展開を目的とした,タジク語特化対話型大規模言語モデル(LLM)のファミリーであるSoroを紹介する。
我々は、フィルタリングされたWebテキスト、PDF文書、カリキュラムに準拠した教材にまたがる1.9ビリオントーケンコーパスに対して、タジク語のみの継続事前訓練を行う。
標準ベンチマークにおけるタジク語の使用範囲が限られているにもかかわらず、厳密な評価を可能にするため、一般知識、言語能力、学校・大学入試領域をカバーする一連のタジク語ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 4.045302776858034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.
- Abstract(参考訳): 本稿では,タジキスタンにおける厳密な計算および接続制約下での現実的な展開を目的とした,タジク語特化対話型大規模言語モデル(LLM)のファミリーであるSoroを紹介する。
オープンウェイトなGemma 3チェックポイントから、フィルタされたWebテキスト、PDF文書、カリキュラムに準拠した教材にまたがる1.9ビリオントーケンコーパスに対して、タジク語のみの継続事前訓練を行い、さらに40Kタジク語教師スタイルの指導指導を行った。
標準ベンチマークにおけるタジク語の使用範囲が限られているにもかかわらず、厳密な評価を可能にするため、一般知識、言語能力、学校・大学入試用ドメインをカバーする一連のタジク語ベンチマークを導入し、Hugging Faceでオープンソース化する。
これらのタジックベンチマーク全体で、Soloは標準データセットでの英語のパフォーマンスを保ちながら、同じサイズのGemma 3ベースラインを大幅に上回っている。
さらに,FP8とINT4の量子化によって,タジキスタンの学校間での教育・セクターパイロットの実施とスケールアウトの計画を支援するとともに,エッジ展開のメモリ要求を低減しつつ,タジク語によるゲインの大半を維持できることを示す。
関連論文リスト
- Benchmarking POS Tagging for the Tajik Language: A Comparative Study of Neural Architectures on the TajPersParallel Corpus [0.0]
本稿では,タジク語のPOSタグ付け作業における最初のベンチマークについて述べる。
TajPersParallel corpusは、約44,000の辞書エントリからなる並列語彙資源である。
論文 参考訳(メタデータ) (2026-05-06T07:26:56Z) - The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models [51.61416200800499]
GaoYaoは182.3kサンプル、26言語、51か国/地域からなる総合ベンチマークである。
まず、GaoYao氏は評価タスクを3つの文化階層に分類する統一的なフレームワークを提案する。
第二に、専門家を活用して、主観的なベンチマークを19言語に厳格にローカライズすることで、ネイティブ品質の拡大を実現しています。
第3に,20以上のフラッグシップおよびコンパクトLCMの詳細な診断を行う。
論文 参考訳(メタデータ) (2026-04-22T06:19:46Z) - SiamGPT: Quality-First Fine-Tuning for Stable Thai Text Generation [0.3400857405460236]
本稿では,Qwen3-32Bに基づくオープンウェイトモデルSiamGPT-32Bについて述べる。
微調整パイプラインは、翻訳された高複雑英語の命令データと、タイ語対応のAutoIFフレームワークを組み合わせて、命令と言語制約を規定する。
論文 参考訳(メタデータ) (2025-12-22T15:00:25Z) - GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models [0.0]
GanitBenchは1527の視覚のみの質問からなるベンチマークである。
ゼロショットチェイン・オブ・ソート(CoT)と2ショットCoT設定の2つのクローズドソースモデルの評価を行った。
GPT-4o miniはベンチマークでより支配的なモデルであり、平均精度は38.15%である。
論文 参考訳(メタデータ) (2025-07-31T18:24:05Z) - Mangosteen: An Open Thai Corpus for Language Model Pretraining [11.72916837632856]
既存の大規模コーパスは英語や言語に依存しないパイプラインに依存している。
Mangosteen: タイのDolmaパイプラインを通じて構築された47億のタイ語対応コーパスを紹介します。
パイプライントリムを202万から2500万のドキュメントにまとめた上で,SEA-HELM NLGを3から11に引き上げた。
論文 参考訳(メタデータ) (2025-07-19T15:28:58Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。