論文の概要: ModernGBERT: German-only 1B Encoder Model Trained from Scratch
- arxiv url: http://arxiv.org/abs/2505.13136v1
- Date: Mon, 19 May 2025 14:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.633093
- Title: ModernGBERT: German-only 1B Encoder Model Trained from Scratch
- Title(参考訳): ModernGBERT: Scratchからトレーニングされたドイツ唯一の1Bエンコーダモデル
- Authors: Anton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho,
- Abstract要約: ゼロから訓練されたドイツのエンコーダモデルの完全透明なファミリであるModernGBERT (134M, 1B) を紹介する。
LL"aMmlein2Vec (120M, 1B, 7B) も提案する。
- 参考スコア(独自算出の注目度): 3.193989599110687
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the prominence of decoder-only language models, encoders remain crucial for resource-constrained applications. We introduce ModernGBERT (134M, 1B), a fully transparent family of German encoder models trained from scratch, incorporating architectural innovations from ModernBERT. To evaluate the practical trade-offs of training encoders from scratch, we also present LL\"aMmlein2Vec (120M, 1B, 7B), a family of encoders derived from German decoder-only models via LLM2Vec. We benchmark all models on natural language understanding, text embedding, and long-context reasoning tasks, enabling a controlled comparison between dedicated encoders and converted decoders. Our results show that ModernGBERT 1B outperforms prior state-of-the-art German encoders as well as encoders adapted via LLM2Vec, with regard to performance and parameter-efficiency. All models, training data, checkpoints and code are publicly available, advancing the German NLP ecosystem with transparent, high-performance encoder models.
- Abstract(参考訳): デコーダのみの言語モデルの普及にもかかわらず、エンコーダはリソース制約のあるアプリケーションには不可欠である。
われわれはModernGBERT (134M, 1B)を紹介し,ModernBERTのアーキテクチャ革新を取り入れ,ゼロからトレーニングしたドイツのエンコーダモデルの完全透明なファミリについて紹介する。
ゼロからトレーニングエンコーダの実践的トレードオフを評価するため、LL\"aMmlein2Vec (120M, 1B, 7B) も提示する。
我々は、自然言語理解、テキスト埋め込み、長文推論タスクに関する全てのモデルをベンチマークし、専用エンコーダと変換されたデコーダの制御された比較を可能にする。
以上の結果から,ModernGBERT 1Bは,LLM2Vecで適応したエンコーダよりも,性能やパラメータ効率に優れていた。
すべてのモデル、トレーニングデータ、チェックポイント、コードは公開されており、透明で高性能なエンコーダモデルでドイツのNLPエコシステムを前進させている。
関連論文リスト
- Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。
適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。
同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文 参考訳(メタデータ) (2025-04-08T17:13:41Z) - Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation [40.72168378706009]
普遍的で効率的で、最適化が容易な翻訳モデルを探求する。
大規模な言語モデル(LLM)をNMTエンコーディングに適用し,NMTデコーダをそのまま残す。
我々は,機械翻訳システムの一般化度を評価するために,複数のタスクを含む新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-03-09T12:54:05Z) - Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference [15.921261060193416]
ModernBERTを導入し、エンコーダのみのモデルにモダンなモデル最適化をもたらす。
ModernBERTモデルは、大規模な評価のプールに最先端の結果を示す。
ModernBERTは、最も高速かつメモリ効率の良いエンコーダでもある。
論文 参考訳(メタデータ) (2024-12-18T09:39:44Z) - Encoder vs Decoder: Comparative Analysis of Encoder and Decoder Language Models on Multilingual NLU Tasks [4.851704512420683]
NLUタスク上でデコーダモデルを評価する手法を導入し,デンマーク語,スウェーデン語,ノルウェー語,アイスランド語,フェロー語,ドイツ語,オランダ語,英語の言語に適用する。
その結果,デコーダモデルよりも桁数が小さいにもかかわらず,エンコーダモデルの方がはるかに優れたNLU性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-19T11:50:09Z) - BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining [0.5919433278490629]
BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
論文 参考訳(メタデータ) (2024-01-29T03:25:11Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。