論文の概要: A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language
Models
- arxiv url: http://arxiv.org/abs/2201.05601v2
- Date: Tue, 18 Jan 2022 09:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 11:41:37.976821
- Title: A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language
Models
- Title(参考訳): ウォームスタートとクリーンなクロールコーパス - 優れた言語モデルのためのレシピ
- Authors: V\'esteinn Sn{\ae}bjarnarson, Haukur Barri S\'imonarson, P\'etur Orri
Ragnarsson, Svanhv\'it Lilja Ing\'olfsd\'ottir, Haukur P\'all J\'onsson,
Vilhj\'almur {\TH}orsteinsson, Hafsteinn Einarsson
- Abstract要約: アイスランド語のためのいくつかの言語モデルをトレーニングし、IceBERTは様々なダウンストリームタスクで最先端のパフォーマンスを達成する。
我々は,アイスランドの上位レベルドメイン(TLD)をターゲットとして,高品質なテキストの集合体であるアイスランド・コモン・クローリング・コーパス(IC3)を新たに導入する。
ロー・ミディアム・リソース言語に対するNLPアプリケーションにおいて, クロールしたコーパスを適切に洗浄すれば, 最先端の処理結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We train several language models for Icelandic, including IceBERT, that
achieve state-of-the-art performance in a variety of downstream tasks,
including part-of-speech tagging, named entity recognition, grammatical error
detection and constituency parsing. To train the models we introduce a new
corpus of Icelandic text, the Icelandic Common Crawl Corpus (IC3), a collection
of high quality texts found online by targeting the Icelandic top-level-domain
(TLD). Several other public data sources are also collected for a total of 16GB
of Icelandic text. To enhance the evaluation of model performance and to raise
the bar in baselines for Icelandic, we translate and adapt the WinoGrande
dataset for co-reference resolution. Through these efforts we demonstrate that
a properly cleaned crawled corpus is sufficient to achieve state-of-the-art
results in NLP applications for low to medium resource languages, by comparison
with models trained on a curated corpus. We further show that initializing
models using existing multilingual models can lead to state-of-the-art results
for some downstream tasks.
- Abstract(参考訳): 我々はアイスランド語のためのいくつかの言語モデルを訓練し、例えばIceBERTは、音声タグ付け、名前付きエンティティ認識、文法的誤り検出、選挙区解析など、様々な下流タスクで最先端のパフォーマンスを達成する。
モデルをトレーニングするために、アイスランドのトップレベルドメイン(tld)をターゲットとした、オンライン上の高品質テキストのコレクションであるアイスランド共通クロールコーパス(ic3)を新たに導入した。
他のいくつかの公開データソースも、合計16GBのアイスランド語のテキストのために収集されている。
アイスランドにおけるモデル性能の評価を高め,基準値のバーを引き上げるために,WinoGrandeデータセットを共参照分解のために翻訳し,適応する。
これらの取り組みを通じて、キュレートされたコーパスで訓練されたモデルと比較することにより、ロー・ミディアム・リソース言語に対するNLPアプリケーションにおける最先端の結果を達成するのに十分なクロールコーパスが十分であることを示す。
さらに、既存の多言語モデルを用いた初期化モデルにより、ダウンストリームタスクの最先端結果が得られることを示す。
関連論文リスト
- SWEb: A Large Web Dataset for the Scandinavian Languages [11.41086713693524]
本稿はスカンジナビア語における最大の事前学習データセットであるスカンジナビア語WEb(SWEb)について述べる。
本稿では,ルールベースのアプローチと比較して,複雑性を著しく低減する新しいモデルベースのテキスト抽出手法を提案する。
また、スウェーデンの言語モデルを評価するための新しいクローゼスタイルのベンチマークを導入し、このテストを用いて、SWEbデータでトレーニングされたモデルとFinalWebでトレーニングされたモデルを比較し、競合する結果と比較した。
論文 参考訳(メタデータ) (2024-10-06T11:55:15Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model [0.0]
国立図書館でデジタルコレクションとデジタルコレクションから大規模なトレーニングセットを構築するプロセスを紹介します。
ノルウェー語のための変換器(BERT)に基づく双方向表現は、複数のトークンおよびシーケンス分類タスクにおいて多言語BERT(mBERT)モデルより優れている。
論文 参考訳(メタデータ) (2021-04-19T20:36:24Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。