論文の概要: HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish
- arxiv url: http://arxiv.org/abs/2105.01735v1
- Date: Tue, 4 May 2021 20:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:57:12.634416
- Title: HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish
- Title(参考訳): HerBERT: ポーランド語用トランスフォーマーベース言語モデル
- Authors: Robert Mroczkowski, Piotr Rybak, Alina Wr\'oblewska, Ireneusz Gawlik
- Abstract要約: 本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
- 参考スコア(独自算出の注目度): 4.473327661758546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT-based models are currently used for solving nearly all Natural Language
Processing (NLP) tasks and most often achieve state-of-the-art results.
Therefore, the NLP community conducts extensive research on understanding these
models, but above all on designing effective and efficient training procedures.
Several ablation studies investigating how to train BERT-like models have been
carried out, but the vast majority of them concerned only the English language.
A training procedure designed for English does not have to be universal and
applicable to other especially typologically different languages. Therefore,
this paper presents the first ablation study focused on Polish, which, unlike
the isolating English language, is a fusional language. We design and
thoroughly evaluate a pretraining procedure of transferring knowledge from
multilingual to monolingual BERT-based models. In addition to multilingual
model initialization, other factors that possibly influence pretraining are
also explored, i.e. training objective, corpus size, BPE-Dropout, and
pretraining length. Based on the proposed procedure, a Polish BERT-based
language model -- HerBERT -- is trained. This model achieves state-of-the-art
results on multiple downstream tasks.
- Abstract(参考訳): BERTベースのモデルは現在、ほぼすべての自然言語処理(NLP)タスクの解決に使用されており、ほとんどの場合最先端の結果が得られている。
したがって、nlpコミュニティはこれらのモデルを理解するための広範な研究を行っているが、特に効果的で効率的なトレーニング手順の設計に重点を置いている。
BERTのようなモデルをトレーニングする方法に関するいくつかのアブレーション研究が実施されているが、その大半は英語のみに関するものである。
英語用に設計された訓練手順は普遍的ではなく、他のタイポロジー的に異なる言語に適用できる。
そこで本稿では,ポーランド語を中心とした最初のアブレーション研究について述べる。
我々は多言語から単言語BERTモデルへ知識を伝達する事前学習手順を設計し、徹底的に評価する。
多言語モデルの初期化に加えて、事前学習に影響を与える可能性のある他の要因も検討されている。
トレーニング目標、コーパスサイズ、bpeドロップアウト、プリトレーニング長さ。
提案した手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTがトレーニングされている。
このモデルは、複数の下流タスクで最先端の結果を達成する。
関連論文リスト
- Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Training dataset and dictionary sizes matter in BERT models: the case of
Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。
提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2021-12-20T14:26:40Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。
最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。
EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-09T21:33:53Z) - Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文 参考訳(メタデータ) (2020-10-06T05:15:39Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。