論文の概要: EuroLLM-22B: Technical Report
- arxiv url: http://arxiv.org/abs/2602.05879v1
- Date: Thu, 05 Feb 2026 16:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.062357
- Title: EuroLLM-22B: Technical Report
- Title(参考訳): EuroLLM-22B 技術報告
- Authors: Miguel Moura Ramos, Duarte M. Alves, Hippolyte Gisserot-Boukhlef, João Alves, Pedro Henrique Martins, Patrick Fernandes, José Pombal, Nuno M. Guerreiro, Ricardo Rei, Nicolas Boizard, Amin Farajian, Mateusz Klimaszewski, José G. C. de Souza, Barry Haddow, François Yvon, Pierre Colombo, Alexandra Birch, André F. T. Martins,
- Abstract要約: EuroLLM-22Bは、ヨーロッパ市民のニーズに対応するためにゼロから訓練された大きな言語モデルである。
欧州連合の公式言語24か国語および追加言語11か国語をカバーしている。
- 参考スコア(独自算出の注目度): 84.29719676524947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents EuroLLM-22B, a large language model trained from scratch to support the needs of European citizens by covering all 24 official European Union languages and 11 additional languages. EuroLLM addresses the issue of European languages being underrepresented and underserved in existing open large language models. We provide a comprehensive overview of EuroLLM-22B's development, including tokenizer design, architectural specifications, data filtering, and training procedures. Across a broad set of multilingual benchmarks, EuroLLM-22B demonstrates strong performance in reasoning, instruction following, and translation, achieving results competitive with models of comparable size. To support future research, we release our base and instruction-tuned models, our multilingual web pretraining data and updated EuroBlocks instruction datasets, as well as our pre-training and evaluation codebases.
- Abstract(参考訳): 本報告では、EUの24の公用語と11の追加言語をカバーすることで、欧州市民のニーズを支援するために、ゼロから訓練された大規模な言語モデルであるEuroLLM-22Bを提示する。
EuroLLMは、ヨーロッパの言語が既存のオープンな大規模言語モデルで不足し、保存されていない問題に対処する。
本稿では,EuroLLM-22Bの開発の概要を概説する。トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などである。
広範囲にわたる多言語ベンチマークにおいて、EuroLLM-22Bは推論、命令追従、翻訳において強力な性能を示し、同等の大きさのモデルと競合する結果を達成している。
今後の研究を支援するため、ベースモデルと命令チューニングモデル、多言語Web事前学習データ、EuroBlocks命令データセットの更新、および事前学習および評価コードベースをリリースする。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - EuroLLM-9B: Technical Report [79.96096140260924]
EuroLLM-9Bは、EUの公式言語24言語と追加言語11言語をカバーするために、スクラッチからトレーニングされた大規模な言語モデルである。
われわれはEuroLLM-9Bの開発の概要を概観し,トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などについて概説する。
論文 参考訳(メタデータ) (2025-06-04T15:43:31Z) - Towards Multilingual LLM Evaluation for European Languages [3.3917876450975317]
ヨーロッパ言語に適した多言語評価手法を提案する。
ヨーロッパ21言語にまたがる40のLLMの能力を評価するために,広く使用されている5つのベンチマークの翻訳版を採用した。
論文 参考訳(メタデータ) (2024-10-11T15:53:24Z) - Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs [29.881727079038857]
本稿では,多言語LLMであるTeuken 7B-baseとTeuken 7B-instructについて述べる。
私たちのモデルは、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れます。
論文 参考訳(メタデータ) (2024-09-30T16:05:38Z) - EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。
これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。
マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文 参考訳(メタデータ) (2024-09-24T16:51:36Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PyEuroVoc: A Tool for Multilingual Legal Document Classification with
EuroVoc Descriptors [0.3007949058551534]
本稿では,現代トランスフォーマーに基づく事前学習型言語モデルを用いて,22言語でEuroVoc分類を行う統一フレームワークを提案する。
コードと微調整されたモデルは、トレーニングされたモデルの重みをロードし、新しいドキュメントを分類するプロセスを容易にするプログラムインターフェイスとともに、オープンソース化された。
論文 参考訳(メタデータ) (2021-08-02T19:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。