論文の概要: MiniLingua: A Small Open-Source LLM for European Languages
- arxiv url: http://arxiv.org/abs/2512.13298v1
- Date: Mon, 15 Dec 2025 13:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.672195
- Title: MiniLingua: A Small Open-Source LLM for European Languages
- Title(参考訳): MiniLingua: ヨーロッパの言語のための小さなオープンソースLLM
- Authors: Anna Aksenova, Boris Zverkov, Nicola Dainese, Alexander Nikitin, Pekka Marttinen,
- Abstract要約: MiniLinguaは、13のヨーロッパ言語でスクラッチからトレーニングされた10億のパラメータからなる、多言語でオープンソースのLLMである。
データ処理やモデルのトレーニングに使用されるモデルウェイト、トークン、ソースコードをリリースします。
- 参考スコア(独自算出の注目度): 47.78284815754002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are powerful but often limited by high computational cost, privacy concerns, and English-centric training. Recent progress demonstrates that small, efficient models with around one billion parameters can deliver strong results and enable on-device use. This paper introduces MiniLingua, a multilingual open-source LLM of one billion parameters trained from scratch for 13 European languages, designed to balance coverage and instruction-following capabilities. Based on evaluation results, the instruction-tuned version of MiniLingua outperforms EuroLLM, a model with a similar training approach but a larger training budget, on summarization, classification and both open- and closed-book question answering. Moreover, it remains competitive with more advanced state-of-the-art models on open-ended generation tasks. We release model weights, tokenizer and source code used for data processing and model training.
- Abstract(参考訳): 大きな言語モデルは強力だが、高い計算コスト、プライバシー上の懸念、英語中心のトレーニングによって制限されることが多い。
最近の進歩は、およそ10億のパラメータを持つ小さな効率的なモデルが強力な結果をもたらし、デバイス上での使用を可能にすることを実証している。
本稿では、13のヨーロッパ言語でスクラッチから訓練された10億のパラメータからなる多言語オープンソースのLLMであるMiniLinguaについて紹介する。
評価結果に基づいて、MiniLinguaの指導訓練版は、類似のトレーニングアプローチを持つモデルであるEuroLLMよりも優れており、要約、分類、オープンおよびクローズドブックの問合せによるトレーニング予算が大きい。
さらに、オープン・エンド・ジェネレーション・タスクの高度な最先端モデルとも競合する。
データ処理やモデルのトレーニングに使用されるモデルウェイト、トークン、ソースコードをリリースします。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。