論文の概要: EuroLLM-22B: Technical Report
- arxiv url: http://arxiv.org/abs/2602.05879v1
- Date: Thu, 05 Feb 2026 16:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.062357
- Title: EuroLLM-22B: Technical Report
- Title(参考訳): EuroLLM-22B 技術報告
- Authors: Miguel Moura Ramos, Duarte M. Alves, Hippolyte Gisserot-Boukhlef, João Alves, Pedro Henrique Martins, Patrick Fernandes, José Pombal, Nuno M. Guerreiro, Ricardo Rei, Nicolas Boizard, Amin Farajian, Mateusz Klimaszewski, José G. C. de Souza, Barry Haddow, François Yvon, Pierre Colombo, Alexandra Birch, André F. T. Martins,
- Abstract要約: EuroLLM-22Bは、ヨーロッパ市民のニーズに対応するためにゼロから訓練された大きな言語モデルである。
欧州連合の公式言語24か国語および追加言語11か国語をカバーしている。
- 参考スコア(独自算出の注目度): 84.29719676524947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents EuroLLM-22B, a large language model trained from scratch to support the needs of European citizens by covering all 24 official European Union languages and 11 additional languages. EuroLLM addresses the issue of European languages being underrepresented and underserved in existing open large language models. We provide a comprehensive overview of EuroLLM-22B's development, including tokenizer design, architectural specifications, data filtering, and training procedures. Across a broad set of multilingual benchmarks, EuroLLM-22B demonstrates strong performance in reasoning, instruction following, and translation, achieving results competitive with models of comparable size. To support future research, we release our base and instruction-tuned models, our multilingual web pretraining data and updated EuroBlocks instruction datasets, as well as our pre-training and evaluation codebases.
- Abstract(参考訳): 本報告では、EUの24の公用語と11の追加言語をカバーすることで、欧州市民のニーズを支援するために、ゼロから訓練された大規模な言語モデルであるEuroLLM-22Bを提示する。
EuroLLMは、ヨーロッパの言語が既存のオープンな大規模言語モデルで不足し、保存されていない問題に対処する。
本稿では,EuroLLM-22Bの開発の概要を概説する。トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などである。
広範囲にわたる多言語ベンチマークにおいて、EuroLLM-22Bは推論、命令追従、翻訳において強力な性能を示し、同等の大きさのモデルと競合する結果を達成している。
今後の研究を支援するため、ベースモデルと命令チューニングモデル、多言語Web事前学習データ、EuroBlocks命令データセットの更新、および事前学習および評価コードベースをリリースする。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - EuroLLM-9B: Technical Report [79.96096140260924]
EuroLLM-9Bは、EUの公式言語24言語と追加言語11言語をカバーするために、スクラッチからトレーニングされた大規模な言語モデルである。
われわれはEuroLLM-9Bの開発の概要を概観し,トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などについて概説する。
論文 参考訳(メタデータ) (2025-06-04T15:43:31Z) - Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs [29.881727079038857]
本稿では,多言語LLMであるTeuken 7B-baseとTeuken 7B-instructについて述べる。
私たちのモデルは、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れます。
論文 参考訳(メタデータ) (2024-09-30T16:05:38Z) - EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。
これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。
マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文 参考訳(メタデータ) (2024-09-24T16:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。