論文の概要: SinLlama -- A Large Language Model for Sinhala
- arxiv url: http://arxiv.org/abs/2508.09115v3
- Date: Wed, 27 Aug 2025 13:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 12:43:57.455898
- Title: SinLlama -- A Large Language Model for Sinhala
- Title(参考訳): SinLlama - Sinhalaの大規模言語モデル
- Authors: H. W. K. Aravinda, Rashad Sirajudeen, Samith Karunathilake, Nisansa de Silva, Surangika Ranathunga, Rishemjit Kaur,
- Abstract要約: Sinhalaのような低リソース言語は、しばしばオープンソースのLarge Language Models (LLM)によって見過ごされる。
本研究では, 既存の多言語LLM (Llama-3-8B) を拡張し, シンハラ語をよりよく活用する。
クリーン化した1000万シンハラコーパスで継続事前トレーニングを行い,その結果,SinLlamaモデルが得られた。
- 参考スコア(独自算出の注目度): 2.8912970779997944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource languages such as Sinhala are often overlooked by open-source Large Language Models (LLMs). In this research, we extend an existing multilingual LLM (Llama-3-8B) to better serve Sinhala. We enhance the LLM tokenizer with Sinhala specific vocabulary and perform continual pre-training on a cleaned 10 million Sinhala corpus, resulting in the SinLlama model. This is the very first decoder-based open-source LLM with explicit Sinhala support. When SinLlama was instruction fine-tuned for three text classification tasks, it outperformed base and instruct variants of Llama-3-8B by a significant margin.
- Abstract(参考訳): Sinhalaのような低リソース言語は、しばしばオープンソースのLarge Language Models (LLM)によって見過ごされる。
本研究では, 既存の多言語LLM (Llama-3-8B) を拡張し, シンハラ語をよりよく活用する。
我々は,シンハラ特異な語彙でLLMトークン化装置を強化し,洗浄した1000万シンハラコーパスで継続事前学習を行い,SinLlamaモデルが得られた。
これは、Sinhalaを明示的にサポートした初めてのデコーダベースのオープンソースLLMである。
SinLlamaが3つのテキスト分類タスクのために微調整されたとき、Llama-3-8Bの変形をかなりの差で命令した。
関連論文リスト
- Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs [5.753786926820733]
Dicta-LM 3.0はヘブライ語と英語のテキストのコーパスに基づいて訓練された大規模言語モデルのオープンウェイトコレクションである。
本モデルを評価するため,ヘブライ語チャット-LLMの評価のためのベンチマークスイートを新たに導入した。
論文 参考訳(メタデータ) (2026-02-02T13:47:54Z) - BYOL: Bring Your Own Language Into LLMs [12.151176703151428]
大規模言語モデル(LLM)は、多言語機能を示すが、グローバル言語リソースの深刻な不均衡によって制約される。
この格差は、体系的なアンパフォーマンス、文化的不整合、低リソース言語と極低リソース言語の話者へのアクセシビリティの制限につながる。
bring Your Own Language (BYOL)は、各言語のデジタルフットプリントに合わせて、スケーラブルで言語対応のLLM開発のための統合フレームワークである。
論文 参考訳(メタデータ) (2026-01-15T19:15:13Z) - Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation [50.93756215410832]
本稿では,デコード時にトークンをフィルタリングする軽量なプラグインソリューションであるLanguage Confusion Gate (LCG)を紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
論文 参考訳(メタデータ) (2025-10-20T14:02:37Z) - MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - Language verY Rare for All [1.3124513975412255]
本稿では,LLMファインチューニングと検索拡張生成(RAG)を組み合わせた新しい手法であるLYRA(Language verY Rare for All)を紹介する。
本研究は,既存の翻訳ツールでサポートされていないフランス語とMon'egasqueの双方向翻訳に焦点を当てた。
この結果から,レア言語翻訳におけるLYRAの有効性や,最先端のエンコーダ・デコーダモデルによく適合することを示す。
論文 参考訳(メタデータ) (2024-12-18T15:07:23Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。