論文の概要: Gamayun's Path to Multilingual Mastery: Cost-Efficient Training of a 1.5B-Parameter LLM
- arxiv url: http://arxiv.org/abs/2512.21580v1
- Date: Thu, 25 Dec 2025 08:52:23 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:05:07.087519
- Title: Gamayun's Path to Multilingual Mastery: Cost-Efficient Training of a 1.5B-Parameter LLM
- Title(参考訳): ガマユンの多言語習得への道-1.5BパラメータLLMの費用効率向上
- Authors: Alexander Podolskiy, Semen Molokov, Timofey Gerasin, Maksim Titov, Alexey Rukhovich, Artem Khrapov, Kirill Morozov, Evgeny Tetin, Constantine Korikov, Pavel Efimov, Polina Lazukova, Yuliya Skripkar, Nikita Okhotnikov, Irina Piontkovskaya, Meng Xiaojun, Zou Xueyi, Zhang Zhenhe,
- Abstract要約: 2.5Tトークンのスクラッチから完全にトレーニングされた多言語言語モデルであるGamayunを紹介します。
我々のモデルは12言語をサポートし、特にロシア語に焦点を当てています。
高度なSTEM以外のほとんどのタスクでQwen3(36Tトークン)にマッチまたは超える。
- 参考スコア(独自算出の注目度): 30.381516759139203
- License:
- Abstract: We present Gamayun, a 1.5B-parameter multilingual language model trained entirely from scratch on 2.5T tokens. Designed for efficiency and deployment in resource-constrained environments, Gamayun addresses the lack of research on small non-English-centric LLMs by adopting a novel two-stage pre-training strategy: balanced multilingual training for cross-lingual alignment, followed by high-quality English enrichment to transfer performance gains across languages. Our model supports 12 languages, with special focus on Russian. Despite a significantly smaller training budget than comparable models, Gamayun outperforms LLaMA3.2-1B (9T tokens) on all considered benchmarks, and surpasses Qwen2.5-1.5B (18T tokens) on a wide range of English and multilingual tasks. It matches or exceeds Qwen3 (36T tokens) on most tasks outside advanced STEM, achieving state-of-the-art results in Russian, including the MERA benchmark, among the models of comparable size (1-2B parameters).
- Abstract(参考訳): 2.5Tトークンのスクラッチから完全に訓練された1.5Bパラメトリック言語モデルであるGamayunを紹介する。
資源制約のある環境での効率性と展開のために設計されたGamayun氏は、新しい2段階の事前訓練戦略を採用することで、小さな非英語中心のLLMの研究の欠如に対処している。
我々のモデルは12言語をサポートし、特にロシア語に焦点を当てています。
訓練予算は同等のモデルよりも大幅に小さいが、ガマユンはLLaMA3.2-1B(9Tトークン)を全てのベンチマークで上回り、広範囲の英語および多言語タスクでQwen2.5-1.5B(18Tトークン)を上回っている。
これは先進STEM以外のほとんどのタスクでQwen3(36Tトークン)と一致し、MERAベンチマークを含むロシアの最先端の結果を、同等のサイズ(1-2Bパラメータ)のモデルの中で達成する。
関連論文リスト
- Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.409987421121405]
GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。
GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-02-04T16:57:03Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。