論文の概要: New Encoders for German Trained from Scratch: Comparing ModernGBERT with Converted LLM2Vec Models
- arxiv url: http://arxiv.org/abs/2505.13136v2
- Date: Mon, 03 Nov 2025 12:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:21.996278
- Title: New Encoders for German Trained from Scratch: Comparing ModernGBERT with Converted LLM2Vec Models
- Title(参考訳): Scratchから学習したドイツ語用新しいエンコーダ:ModernGBERTとLLM2Vecモデルとの比較
- Authors: Julia Wunderle, Anton Ehrmanntraut, Jan Pfister, Fotis Jannidis, Andreas Hotho,
- Abstract要約: この研究は、同一のデータと訓練制約の下で、高品質なドイツのエンコーダへの2つのルートを研究する。
ModernGBERT (134M, 1B)、ModernBERTスタイルの完全透明なドイツのエンコーダ、LL"aMmleinVec (120M, 1B, 7B)、デコーダ-エンコーダ変換の2つのリソースを紹介する。
- 参考スコア(独自算出の注目度): 9.208809616445858
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Encoders remain essential for efficient German NLP and NLU scenarios despite the rise of decoder-only LLMs. This work studies two routes to high-quality German encoders under identical data and training constraints: 1) training from scratch and 2) converting decoders via LLM2Vec. We introduce two resources: ModernGBERT (134M, 1B), fully transparent German encoders in the ModernBERT style, and LL\"aMmleinVec (120M, 1B, 7B), decoder-to-encoder conversions trained with masked next-token prediction, both undergoing a context extension to 8.192 tokens. Across SuperGLEBer, ModernGBERT 1B sets a new state of the art (avg 0.808), surpassing GBERT Large (+4%) and the seven-times larger converted 7B model (0.787). On German MTEB after supervised fine-tuning, ModernGBERT 1B (0.551) approaches the converted 7B model (0.557). We release all models, checkpoints, datasets, and full training records, and introduce an encoder-adapted QA-NIAH evaluation. All in all, our results provide actionable guidance: when parameter efficiency and latency matter, from-scratch encoders dominate. When a pre-trained decoder exists and compute is a limited, conversion offers an effective alternative. ModernGBERT and LL\"aMmleinVec, including all code, data and intermediary checkpoints are published under a research-only RAIL license.
- Abstract(参考訳): エンコーダは、デコーダのみのLLMの増加にもかかわらず、効率的なドイツのNLPおよびNLUシナリオに必須である。
この研究は、同一のデータと訓練制約の下で、高品質なドイツのエンコーダへの2つのルートを研究する。
1)スクラッチからのトレーニングと
2) LLM2Vecを介してデコーダを変換する。
modernGBERT (134M, 1B), fully transparent German encoders in the ModernBERT style, and LL\"aMmleinVec (120M, 1B, 7B), decoder-to-encoder conversions training with masked next-token prediction。
SuperGLEBer全体では、ModernGBERT 1B は GBERT Large (+4%) を上回り、7倍の 7B モデル (0.787) を新たに最先端の 0.808 に設定している。
監督微調整後のドイツのMTEBでは、ModernGBERT 1B (0.551) が変換された7Bモデル (0.557) に接近した。
我々は、すべてのモデル、チェックポイント、データセット、フルトレーニングレコードをリリースし、エンコーダに適応したQA-NIAH評価を導入する。
パラメータ効率と遅延が重要な場合、 from-scratch エンコーダが支配的になります。
事前訓練されたデコーダが存在し、計算が限られている場合、変換は効果的な代替手段を提供する。
ModernGBERT と LL\"aMmleinVec には、すべてのコード、データ、中間チェックポイントが含まれており、研究専用のRAILライセンスで公開されている。
関連論文リスト
- Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。
適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。
同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文 参考訳(メタデータ) (2025-04-08T17:13:41Z) - Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation [40.72168378706009]
普遍的で効率的で、最適化が容易な翻訳モデルを探求する。
大規模な言語モデル(LLM)をNMTエンコーディングに適用し,NMTデコーダをそのまま残す。
我々は,機械翻訳システムの一般化度を評価するために,複数のタスクを含む新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-03-09T12:54:05Z) - Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference [15.921261060193416]
ModernBERTを導入し、エンコーダのみのモデルにモダンなモデル最適化をもたらす。
ModernBERTモデルは、大規模な評価のプールに最先端の結果を示す。
ModernBERTは、最も高速かつメモリ効率の良いエンコーダでもある。
論文 参考訳(メタデータ) (2024-12-18T09:39:44Z) - Improving Language Transfer Capability of Decoder-only Architecture in Multilingual Neural Machine Translation [28.07831604833682]
本稿では,デコーダのみのアーキテクチャと言語伝達能力の欠如について検討する。
本稿では,デコード処理を2段階に分割し,第1段階においてターゲットトークンを明示的に除外することを提案する。
我々は、翻訳命令に対照的な学習を課し、ゼロショット翻訳の性能を改善した。
論文 参考訳(メタデータ) (2024-12-03T02:52:14Z) - Encoder vs Decoder: Comparative Analysis of Encoder and Decoder Language Models on Multilingual NLU Tasks [4.851704512420683]
NLUタスク上でデコーダモデルを評価する手法を導入し,デンマーク語,スウェーデン語,ノルウェー語,アイスランド語,フェロー語,ドイツ語,オランダ語,英語の言語に適用する。
その結果,デコーダモデルよりも桁数が小さいにもかかわらず,エンコーダモデルの方がはるかに優れたNLU性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-19T11:50:09Z) - BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining [0.5919433278490629]
BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
論文 参考訳(メタデータ) (2024-01-29T03:25:11Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。