論文の概要: GottBERT: a pure German Language Model
- arxiv url: http://arxiv.org/abs/2012.02110v1
- Date: Thu, 3 Dec 2020 17:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:11:07.433127
- Title: GottBERT: a pure German Language Model
- Title(参考訳): GottBERT: 純粋なドイツ語モデル
- Authors: Raphael Scheible, Fabian Thomczyk, Patric Tippmann, Victor Jaravine,
Martin Boeker
- Abstract要約: ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lately, pre-trained language models advanced the field of natural language
processing (NLP). The introduction of Bidirectional Encoders for Transformers
(BERT) and its optimized version RoBERTa have had significant impact and
increased the relevance of pre-trained models. First, research in this field
mainly started on English data followed by models trained with multilingual
text corpora. However, current research shows that multilingual models are
inferior to monolingual models. Currently, no German single language RoBERTa
model is yet published, which we introduce in this work (GottBERT). The German
portion of the OSCAR data set was used as text corpus. In an evaluation we
compare its performance on the two Named Entity Recognition (NER) tasks Conll
2003 and GermEval 2014 as well as on the text classification tasks GermEval
2018 (fine and coarse) and GNAD with existing German single language BERT
models and two multilingual ones. GottBERT was pre-trained related to the
original RoBERTa model using fairseq. All downstream tasks were trained using
hyperparameter presets taken from the benchmark of German BERT. The experiments
were setup utilizing FARM. Performance was measured by the $F_{1}$ score.
GottBERT was successfully pre-trained on a 256 core TPU pod using the RoBERTa
BASE architecture. Even without extensive hyper-parameter optimization, in all
NER and one text classification task, GottBERT already outperformed all other
tested German and multilingual models. In order to support the German NLP
field, we publish GottBERT under the AGPLv3 license.
- Abstract(参考訳): 近年、訓練済みの言語モデルは自然言語処理(NLP)の分野で進歩している。
変換器用双方向エンコーダ(BERT)と最適化されたバージョンRoBERTaの導入は、事前訓練されたモデルの関連性を高めた。
まず、この分野の研究は英語データから始められ、その後多言語テキストコーパスで訓練されたモデルが続いた。
しかし、最近の研究では、多言語モデルは単言語モデルよりも劣っていることが示されている。
現在、ドイツの単一言語RoBERTaモデルはまだ公開されておらず、GottBERT(source)で紹介する。
OSCARデータセットのドイツ語部分はテキストコーパスとして使用された。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTは、Fairseqを使用してオリジナルのRoBERTaモデルに関連して事前訓練された。
下流の全てのタスクは、ドイツのBERTのベンチマークから得られたハイパーパラメータプリセットを使用して訓練された。
実験は農場を利用して行われた。
パフォーマンスは$f_{1}$スコアで測定された。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
大規模なハイパーパラメータ最適化がなくても、すべてのNERと1つのテキスト分類タスクにおいて、GottBERTはテスト済みの他のドイツおよび多言語モデルよりも優れていた。
ドイツのNLP分野をサポートするため、我々はGottBERTをAGPLv3ライセンス下で公開する。
関連論文リスト
- NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - RobBERT-2022: Updating a Dutch Language Model to Account for Evolving
Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。
まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文 参考訳(メタデータ) (2022-11-15T14:55:53Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。
最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。
EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-09T21:33:53Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。