論文の概要: SinLlama - A Large Language Model for Sinhala
- arxiv url: http://arxiv.org/abs/2508.09115v1
- Date: Tue, 12 Aug 2025 17:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.531276
- Title: SinLlama - A Large Language Model for Sinhala
- Title(参考訳): SinLlama - Sinhalaの大規模言語モデル
- Authors: H. W. K. Aravinda, Rashad Sirajudeen, Samith Karunathilake, Nisansa de Silva, Surangika Ranathunga, Rishemjit Kaur,
- Abstract要約: Sinhalaのような低リソース言語は、しばしばオープンソースのLarge Language Models (LLM)によって見過ごされる。
本研究では, 既存の多言語LLM (Llama-3-8B) を拡張し, シンハラ語をよりよく活用する。
クリーン化した1000万シンハラコーパスで継続事前トレーニングを行い,その結果,SinLlamaモデルが得られた。
- 参考スコア(独自算出の注目度): 1.0995326465245927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource languages such as Sinhala are often overlooked by open-source Large Language Models (LLMs). In this research, we extend an existing multilingual LLM (Llama-3-8B) to better serve Sinhala. We enhance the LLM tokenizer with Sinhala specific vocabulary and perform continual pre-training on a cleaned 10 million Sinhala corpus, resulting in the SinLlama model. This is the very first decoder-based open-source LLM with explicit Sinhala support. When SinLlama was instruction fine-tuned for three text classification tasks, it outperformed base and instruct variants of Llama-3-8B by a significant margin.
- Abstract(参考訳): Sinhalaのような低リソース言語は、しばしばオープンソースのLarge Language Models (LLM)によって見過ごされる。
本研究では, 既存の多言語LLM (Llama-3-8B) を拡張し, シンハラ語をよりよく活用する。
我々は,シンハラ特異な語彙でLLMトークン化装置を強化し,洗浄した1000万シンハラコーパスで継続事前学習を行い,SinLlamaモデルが得られた。
これは、Sinhalaを明示的にサポートした初めてのデコーダベースのオープンソースLLMである。
SinLlamaが3つのテキスト分類タスクのために微調整されたとき、Llama-3-8Bの変形をかなりの差で命令した。
関連論文リスト
- MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。