論文の概要: Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
- arxiv url: http://arxiv.org/abs/2509.05668v1
- Date: Sat, 06 Sep 2025 10:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.6421
- Title: Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
- Title(参考訳): Llama-GENBA-10B:ドイツ語、英語、バイエルン語のための三言語大言語モデル
- Authors: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer,
- Abstract要約: Llama-GENBA-10Bは、大きな言語モデルにおける英語中心バイアスに対処する三言語基礎モデルである。
164Bトークン(82B英語、82Bドイツ語、80Mバイエルン語)で継続的に事前訓練されている。
- 参考スコア(独自算出の注目度): 0.7039577044513267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Llama-GENBA-10B, a trilingual foundation model addressing English-centric bias in large language models. Built on Llama 3.1-8B and scaled to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens (82B English, 82B German, and 80M Bavarian), balancing resources while preventing English dominance. Targeted at the German NLP community, the model also promotes Bavarian as a low-resource language. Development tackled four challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2) creating a unified tokenizer for English, German, and Bavarian, (3) optimizing architecture and language-ratio hyperparameters for cross-lingual transfer, and (4) establishing the first standardized trilingual evaluation suite by translating German benchmarks into Bavarian. Evaluations show that Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing itself as the best model in its class for this language, while also outperforming EuroLLM in English and matching its results in German. Training on the Cerebras CS-2 demonstrated efficient large-scale multilingual pretraining with documented energy use, offering a blueprint for inclusive foundation models that integrate low-resource languages.
- Abstract(参考訳): 本稿では,Llama-GENBA-10Bについて述べる。Llama-GENBA-10Bは,大言語モデルにおける英語中心バイアスに対処する三言語基礎モデルである。
Llama-GENBA-10B は Llama 3.1-8B 上に構築され、10B のパラメータに拡張され、164B トークン (82B 英語、82B ドイツ語、80M バイエルン) で継続的に事前訓練され、イングランド支配を防ぎながら資源のバランスをとる。
ドイツのNLPコミュニティをターゲットとして、このモデルはバイエルン語を低リソース言語として推進している。
1)バイエルン語の不足にもかかわらず多言語コーパスのキュレーション,(2)英語,ドイツ語,バイエルン語用の統一トークン化器の作成,(3)言語間移動のためのアーキテクチャと言語比のハイパーパラメータの最適化,(4)ドイツのベンチマークをバイエルン語に翻訳して最初の標準化された三言語評価スイートを確立すること,の4つの課題に対処した。
Llama-GENBA-10B は、バイエルン語で Apertus-8B-2509 と gemma-2-9b を超越した微調整の派生型であり、クラスで最高のモデルとしての地位を確立しつつ、英語では EuroLLM を上回り、ドイツ語では結果と一致している。
Cerebras CS-2 の訓練は、文書化されたエネルギー使用による効率的な大規模多言語事前訓練を実証し、低リソース言語を統合する包括的基礎モデルの青写真を提供した。
関連論文リスト
- Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque [2.867517731896504]
大規模言語モデル(LLM)は一般的に英語のような資源に富む言語に最適化され、高リソース言語と低表現言語の間のギャップを悪化させる。
本研究は,低リソース言語,特にバスク語で指示に従うことができるモデルを開発するための戦略を,事前学習,指導指導,人間の嗜好との整合という3つの重要な段階に焦点をあてて詳細に分析する。
論文 参考訳(メタデータ) (2024-12-18T15:05:59Z) - BgGPT 1.0: Extending English-centric LLMs to other languages [12.867025651644692]
本稿では,BgGPT-Gemma-2-27B-InstructとBgGPT-Gemma-2-9B-Instructについて述べる。
我々のモデルはブルガリア語のタスクにおいて強力なパフォーマンスを示し、言語固有のAIモデルの新しい標準を設定します。
論文 参考訳(メタデータ) (2024-12-14T16:49:52Z) - Cross-lingual transfer of multilingual models on low resource African Languages [0.20793001310272596]
単一の言語で訓練されたモノリンガルモデルは、ターゲット言語のニュアンスをよりよく捉えることができる。
AfriBERTは微調整後に最高88.3%の言語間精度を達成した。
BiGRUは83.3%の精度で最高のパフォーマンスのニューラルモデルとして登場した。
論文 参考訳(メタデータ) (2024-09-17T08:05:40Z) - Baichuan 2: Open Large-scale Language Models [51.34140526283222]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer
models [0.0]
マルチラベルテキスト分類において,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換について検討した。
我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。
多言語事前訓練モデル(M-DistilBERT, M-BERT)の言語モデル微調整により, フランス語とドイツ語の相対的改善が32.0-34.94%, 76.15-87.54%となることがわかった。
論文 参考訳(メタデータ) (2021-11-28T16:25:04Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。