論文の概要: GeistBERT: Breathing Life into German NLP
- arxiv url: http://arxiv.org/abs/2506.11903v2
- Date: Wed, 18 Jun 2025 23:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.471224
- Title: GeistBERT: Breathing Life into German NLP
- Title(参考訳): GeistBERT:ドイツのNLPに人生を吹き込む
- Authors: Raphael Scheible-Schmitt, Johann Frei,
- Abstract要約: GeistBERTは、多種多様なコーパスで漸進的にトレーニングすることで、ドイツ語処理の改善を目指している。
モデルは強力なパフォーマンスを達成し、すべてのタスクをベースモデルでリードし、新しい最先端(SOTA)を設定する。
ドイツのNLP研究コミュニティをサポートするため、私たちはGeistBERTをMITライセンス下でリリースします。
- 参考スコア(独自算出の注目度): 0.22099217573031676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in transformer-based language models have highlighted the benefits of language-specific pre-training on high-quality corpora. In this context, German NLP stands to gain from updated architectures and modern datasets tailored to the linguistic characteristics of the German language. GeistBERT seeks to improve German language processing by incrementally training on a diverse corpus and optimizing model performance across various NLP tasks. It was pre-trained using fairseq with standard hyperparameters, initialized from GottBERT weights, and trained on a large-scale German corpus using Whole Word Masking (WWM). Based on the pre-trained model, we derived extended-input variants using Nystr\"omformer and Longformer architectures with support for sequences up to 8k tokens. While these long-context models were not evaluated on dedicated long-context benchmarks, they are included in our release. We assessed all models on NER (CoNLL 2003, GermEval 2014) and text classification (GermEval 2018 fine/coarse, 10kGNAD) using $F_1$ score and accuracy. The GeistBERT models achieved strong performance, leading all tasks among the base models and setting a new state-of-the-art (SOTA). Notably, the base models outperformed larger models in several tasks. To support the German NLP research community, we are releasing GeistBERT under the MIT license.
- Abstract(参考訳): トランスフォーマーベースの言語モデルの進歩は、高品質コーパスにおける言語固有の事前学習の利点を強調している。
この文脈において、ドイツのNLPは、ドイツ語の言語的特徴に合わせて更新されたアーキテクチャと近代的なデータセットから得られるものである。
GeistBERTは、多種多様なコーパスで漸進的にトレーニングし、様々なNLPタスクでモデルパフォーマンスを最適化することで、ドイツの言語処理を改善することを目指している。
標準のハイパーパラメータを持つフェアセックを用いて事前訓練され、GottBERT重量から初期化され、WWM(Whole Word Masking)を使用して大規模なドイツのコーパスで訓練された。
事前学習モデルに基づいて,最大8kトークンまでのシーケンスをサポートするNystr\omformerアーキテクチャとLongformerアーキテクチャを用いて,拡張入力の変種を抽出した。
これらの長文モデルは、専用の長文ベンチマークでは評価されなかったが、当社のリリースには含まれていない。
NER (CoNLL 2003, GermEval 2014) とテキスト分類 (GermEval 2018 fine/coarse, 10kGNAD) を$F_1$スコアと精度を用いて評価した。
GeistBERTモデルは強力な性能を達成し、全てのタスクをベースモデルに導き、新しい最先端(SOTA)を設定した。
特に、ベースモデルは、いくつかのタスクでより大きなモデルを上回った。
ドイツのNLP研究コミュニティをサポートするため、私たちはGeistBERTをMITライセンス下でリリースします。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。