論文の概要: Llama-3.1-Sherkala-8B-Chat: An Open Large Language Model for Kazakh
- arxiv url: http://arxiv.org/abs/2503.01493v1
- Date: Mon, 03 Mar 2025 13:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:16.834455
- Title: Llama-3.1-Sherkala-8B-Chat: An Open Large Language Model for Kazakh
- Title(参考訳): Llama-3.1-Sherkala-8B-Chat:カザフスタンのオープンな大規模言語モデル
- Authors: Fajri Koto, Rituraj Joshi, Nurdaulet Mukhituly, Yuxia Wang, Zhuohan Xie, Rahul Pal, Daniil Orel, Parvez Mullah, Diana Turmakhan, Maiya Goloburda, Mohammed Kamran, Samujjwal Ghosh, Bokang Jia, Jonibek Mansurov, Mukhammed Togmanov, Debopriyo Banerjee, Nurkhan Laiyk, Akhmed Sakip, Xudong Han, Ekaterina Kochmar, Alham Fikri Aji, Aaryamonvikram Singh, Alok Anil Jadhav, Satheesh Katipomu, Samta Kamboj, Monojit Choudhury, Gurpreet Gosal, Gokul Ramakrishnan, Biswajit Mishra, Sarath Chandran, Avraham Sheinin, Natalia Vassilieva, Neha Sengupta, Larry Murray, Preslav Nakov,
- Abstract要約: Sherkala-Chat (8B) は、カザフスタンの言語モデルであるLLMである。
LLaMA-3.1-8Bモデルに適応したシェルカラ・チャット (8B) はカザフ語、英語、ロシア語、トルコ語で45.3Bのトークンで訓練されている。
- 参考スコア(独自算出の注目度): 40.26031132975355
- License:
- Abstract: Llama-3.1-Sherkala-8B-Chat, or Sherkala-Chat (8B) for short, is a state-of-the-art instruction-tuned open generative large language model (LLM) designed for Kazakh. Sherkala-Chat (8B) aims to enhance the inclusivity of LLM advancements for Kazakh speakers. Adapted from the LLaMA-3.1-8B model, Sherkala-Chat (8B) is trained on 45.3B tokens across Kazakh, English, Russian, and Turkish. With 8 billion parameters, it demonstrates strong knowledge and reasoning abilities in Kazakh, significantly outperforming existing open Kazakh and multilingual models of similar scale while achieving competitive performance in English. We release Sherkala-Chat (8B) as an open-weight instruction-tuned model and provide a detailed overview of its training, fine-tuning, safety alignment, and evaluation, aiming to advance research and support diverse real-world applications.
- Abstract(参考訳): Llama-3.1-Sherkala-8B-Chat(英語: Llama-3.1-Sherkala-8B-Chat)は、カザフスタンの言語モデルである。
Sherkala-Chat (8B)は、カザフ語話者のLLM向上の傾向を高めることを目的としている。
LLaMA-3.1-8Bモデルに適応したシェルカラ・チャット (8B) はカザフ語、英語、ロシア語、トルコ語で45.3Bのトークンで訓練されている。
80億のパラメータを持ち、カザフ語における強力な知識と推論能力を示し、既存のオープンなカザフ語と類似のスケールの多言語モデルを大幅に上回り、英語の競争性能を達成している。
オープンウェイトな指導訓練モデルとしてSherkala-Chat (8B) をリリースし、そのトレーニング、微調整、安全性アライメント、評価の概要を詳述する。
関連論文リスト
- KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan [35.02482209366835]
KazMMLUは、カザフ語用に特別に設計された最初のMMLUスタイルのデータセットである。
STEM、人文科学、社会科学など、様々な教育レベルをカバーする23,000の質問が含まれている。
データセットには10,969のカザフスタン質問と12,031のロシア質問が含まれている。
論文 参考訳(メタデータ) (2025-02-18T12:48:37Z) - AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks [19.403924294587043]
本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。
私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。
論文 参考訳(メタデータ) (2024-09-19T09:52:35Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Qwen2 Technical Report [141.0766756297144]
本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。
Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超え、プロプライエタリモデルと比較して競争力のある性能を示している。
Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文 参考訳(メタデータ) (2024-07-15T12:35:42Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。