論文の概要: Progress Report: Towards European LLMs
- arxiv url: http://arxiv.org/abs/2410.03730v1
- Date: Tue, 15 Oct 2024 17:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:28:28.208618
- Title: Progress Report: Towards European LLMs
- Title(参考訳): Progress Report: toward European LLMs (英語)
- Authors: Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lübbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny Jörg Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo Brandizzi, Qasid Saleem, Bhowmick Anirban, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Shima Asaadi, Fabio Barth, Rafet Sifa, Fabian Küch, René Jäkel, Georg Rehm, Stefan Kesselheim, Joachim Köhler, Nicolas Flores-Herr,
- Abstract要約: プロジェクトOpenGPT-Xの事前結果を報告する。
このプロジェクトは欧州連合の24の公用語すべてをサポートする2つの多言語LLMを開発した。
モデルの開発原則、データ処理技術、トークン化ツールの最適化、トレーニング方法論について詳述する。
- 参考スコア(独自算出の注目度): 30.16294200337175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present preliminary results of the project OpenGPT-X. At present, the project has developed two multilingual LLMs designed to embrace Europe's linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models' development principles, data processing techniques, tokenizer optimization, and training methodologies. The models demonstrate competitive performance across multilingual benchmarks, as evidenced by its performance on European versions of ARC, HellaSwag, MMLU, and TruthfulQA.
- Abstract(参考訳): プロジェクトOpenGPT-Xの事前結果を報告する。
このプロジェクトは現在、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを開発している。
我々のモデルは、約60%の非英語データとカスタム多言語トークン化器を用いて訓練されたデータセットに基づいて、主に英語やいくつかの高リソース言語に焦点を当てた既存のLLMの制限に対処する。
モデルの開発原則、データ処理技術、トークン化ツールの最適化、トレーニング方法論について詳述する。
これらのモデルは、ARC、HellaSwag、MMLU、TruthfulQAのヨーロッパ版でのパフォーマンスで証明されているように、多言語ベンチマーク間での競合性能を示している。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Towards Multilingual LLM Evaluation for European Languages [3.3917876450975317]
ヨーロッパ言語に適した多言語評価手法を提案する。
ヨーロッパ21言語にまたがる40のLLMの能力を評価するために,広く使用されている5つのベンチマークの翻訳版を採用した。
論文 参考訳(メタデータ) (2024-10-11T15:53:24Z) - EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。
これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。
マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文 参考訳(メタデータ) (2024-09-24T16:51:36Z) - A Survey of Large Language Models for European Languages [4.328283741894074]
大規模言語モデル(LLM)は、多岐にわたる自然言語処理における高い性能のため、大きな注目を集めている。
LLaMA, PaLM, GPT, MoE など LLM ファミリーの概要を報告する。
大規模言語モデルの事前学習に使用される共通単言語および多言語データセットの包括的要約を提供する。
論文 参考訳(メタデータ) (2024-08-27T13:10:05Z) - X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。
韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T01:14:47Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。