論文の概要: The birth of Romanian BERT
- arxiv url: http://arxiv.org/abs/2009.08712v1
- Date: Fri, 18 Sep 2020 09:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:00:16.873228
- Title: The birth of Romanian BERT
- Title(参考訳): ルーマニア人BERTの誕生
- Authors: Stefan Daniel Dumitrescu and Andrei-Marius Avram and Sampo Pyysalo
- Abstract要約: 本稿では,ルーマニア語トランスフォーマーをベースとした最初の言語モデルであるルーマニア語BERTについて紹介する。
本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアの様々なデータセット上でのモデルの広範囲な評価について論じる。
- 参考スコア(独自算出の注目度): 1.377045689881944
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale pretrained language models have become ubiquitous in Natural
Language Processing. However, most of these models are available either in
high-resource languages, in particular English, or as multilingual models that
compromise performance on individual languages for coverage. This paper
introduces Romanian BERT, the first purely Romanian transformer-based language
model, pretrained on a large text corpus. We discuss corpus composition and
cleaning, the model training process, as well as an extensive evaluation of the
model on various Romanian datasets. We open source not only the model itself,
but also a repository that contains information on how to obtain the corpus,
fine-tune and use this model in production (with practical examples), and how
to fully replicate the evaluation process.
- Abstract(参考訳): 大規模事前訓練型言語モデルは自然言語処理においてユビキタス化されている。
しかしながら、これらのモデルのほとんどは、高リソース言語、特に英語、あるいは、カバレッジのために個々の言語のパフォーマンスを損なう多言語モデルで利用可能である。
本稿では,ルーマニア語トランスフォーマーを用いた最初の言語モデルであるルーマニア語bertについて述べる。
本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアのさまざまなデータセット上でのモデルの広範な評価について論じる。
我々は、モデル自体だけでなく、コーパスの取得方法、微調整方法、本番環境での使用方法(実例)、評価プロセスの完全な複製方法などの情報を含むリポジトリもオープンソースにしています。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Comparison of Pre-trained Language Models for Turkish Address Parsing [0.0]
トルコの地図データに着目し,多言語とトルコを基盤とするBERT, DistilBERT, ELECTRA, RoBERTaを徹底的に評価する。
また,一層ファインチューニングの標準的なアプローチに加えて,細調整BERTのためのMultiLayer Perceptron (MLP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:09:43Z) - Training dataset and dictionary sizes matter in BERT models: the case of
Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。
提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2021-12-20T14:26:40Z) - Scribosermo: Fast Speech-to-Text models for German and other Languages [69.7571480246023]
本稿では,ドイツ語とスペイン語とフランス語の特殊特徴を持つ音声テキストモデルについて述べる。
それらは小さく、RaspberryPiのようなマイクロコントローラ上でリアルタイムで実行される。
事前トレーニングされた英語モデルを使用して、比較的小さなデータセットで、コンシューマグレードのハードウェアでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-15T10:10:34Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。