論文の概要: EuroLLM-9B: Technical Report
- arxiv url: http://arxiv.org/abs/2506.04079v1
- Date: Wed, 04 Jun 2025 15:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.426646
- Title: EuroLLM-9B: Technical Report
- Title(参考訳): EuroLLM-9B 技術報告
- Authors: Pedro Henrique Martins, João Alves, Patrick Fernandes, Nuno M. Guerreiro, Ricardo Rei, Amin Farajian, Mateusz Klimaszewski, Duarte M. Alves, José Pombal, Manuel Faysse, Pierre Colombo, François Yvon, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins,
- Abstract要約: EuroLLM-9Bは、EUの公式言語24言語と追加言語11言語をカバーするために、スクラッチからトレーニングされた大規模な言語モデルである。
われわれはEuroLLM-9Bの開発の概要を概観し,トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などについて概説する。
- 参考スコア(独自算出の注目度): 81.20450180553684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents EuroLLM-9B, a large language model trained from scratch to support the needs of European citizens by covering all 24 official European Union languages and 11 additional languages. EuroLLM addresses the issue of European languages being underrepresented and underserved in existing open large language models. We provide a comprehensive overview of EuroLLM-9B's development, including tokenizer design, architectural specifications, data filtering, and training procedures. We describe the pre-training data collection and filtering pipeline, including the creation of EuroFilter, an AI-based multilingual filter, as well as the design of EuroBlocks-Synthetic, a novel synthetic dataset for post-training that enhances language coverage for European languages. Evaluation results demonstrate EuroLLM-9B's competitive performance on multilingual benchmarks and machine translation tasks, establishing it as the leading open European-made LLM of its size. To support open research and adoption, we release all major components of this work, including the base and instruction-tuned models, the EuroFilter classifier, and the synthetic post-training dataset.
- Abstract(参考訳): 本報告では、EUの公式言語24言語と追加言語11言語すべてをカバーすることで、欧州市民のニーズを支援するためにゼロからトレーニングされた大規模な言語モデルであるEuroLLM-9Bを提示する。
EuroLLMは、ヨーロッパの言語が既存のオープンな大規模言語モデルで不足し、保存されていない問題に対処する。
われわれはEuroLLM-9Bの開発の概要を概観し,トークン化設計,アーキテクチャ仕様,データフィルタリング,トレーニング手順などについて概説する。
我々は、AIベースの多言語フィルタであるEuroFilterの作成や、ヨーロッパの言語に対する言語カバレッジを高めるポストトレーニングのための新しい合成データセットであるEuroBlocks-Syntheticの設計を含む、事前トレーニングデータ収集とフィルタリングパイプラインについて説明する。
評価結果は、EuroLLM-9Bのマルチ言語ベンチマークと機械翻訳タスクにおける競合性能を示し、ヨーロッパ製LLMの規模を最大化している。
オープンな研究と採用を支援するため、ベースモデルと命令チューニングモデル、EuroFilter分類器、合成後トレーニングデータセットを含む、この研究のすべての主要コンポーネントをリリースする。
関連論文リスト
- Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs [29.595342315049106]
我々は、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを提示する。
モデルの開発原則、すなわちデータ構成、トークン化最適化、トレーニング方法論について詳述する。
論文 参考訳(メタデータ) (2024-09-30T16:05:38Z) - EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。
これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。
マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文 参考訳(メタデータ) (2024-09-24T16:51:36Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PyEuroVoc: A Tool for Multilingual Legal Document Classification with
EuroVoc Descriptors [0.3007949058551534]
本稿では,現代トランスフォーマーに基づく事前学習型言語モデルを用いて,22言語でEuroVoc分類を行う統一フレームワークを提案する。
コードと微調整されたモデルは、トレーニングされたモデルの重みをロードし、新しいドキュメントを分類するプロセスを容易にするプログラムインターフェイスとともに、オープンソース化された。
論文 参考訳(メタデータ) (2021-08-02T19:46:21Z) - Natural Language Processing Chains Inside a Cross-lingual Event-Centric
Knowledge Pipeline for European Union Under-resourced Languages [0.0]
本稿では、欧州連合言語のための言語処理チェーンを含むプラットフォームを開発するための戦略について述べる。
これらのチェーンは、ヨーロッパや他の世界に影響を与える可能性のある主要なイベントに関する多言語メディア情報を処理することを目的とした、イベント中心の知識処理パイプラインの第1ステップの一部です。
論文 参考訳(メタデータ) (2020-10-23T14:26:30Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。