論文の概要: Towards a Cleaner Document-Oriented Multilingual Crawled Corpus
- arxiv url: http://arxiv.org/abs/2201.06642v1
- Date: Mon, 17 Jan 2022 22:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 05:24:10.178725
- Title: Towards a Cleaner Document-Oriented Multilingual Crawled Corpus
- Title(参考訳): よりクリーンな文書指向多言語クロールコーパスを目指して
- Authors: Julien Abadji, Pedro Ortiz Suarez, Laurent Romary, Beno\^it Sagot
- Abstract要約: 本稿では、既存の多言語WebコーパスOSCARとそのパイプラインUngoliantを取り上げ、行レベルでCommon Crawlからデータを抽出し分類する。
そこで本稿では,OSCARの文書指向バージョンを生成するための改良と自動アノテーションを提案する。
- 参考スコア(独自算出の注目度): 2.1028463367241033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The need for raw large raw corpora has dramatically increased in recent years
with the introduction of transfer learning and semi-supervised learning methods
to Natural Language Processing. And while there have been some recent attempts
to manually curate the amount of data necessary to train large language models,
the main way to obtain this data is still through automatic web crawling. In
this paper we take the existing multilingual web corpus OSCAR and its pipeline
Ungoliant that extracts and classifies data from Common Crawl at the line
level, and propose a set of improvements and automatic annotations in order to
produce a new document-oriented version of OSCAR that could prove more suitable
to pre-train large generative language models as well as hopefully other
applications in Natural Language Processing and Digital Humanities.
- Abstract(参考訳): 近年,自然言語処理へのトランスファー学習や半教師付き学習手法の導入により,生の生コーパスの必要性が劇的に高まっている。
また、大規模な言語モデルのトレーニングに必要なデータ量を手作業でキュレートする試みが最近行われているが、このデータを取得する主な方法は、いまだに自動Webクローリングである。
本稿では,既存の多言語 Web コーパス OSCAR とそのパイプライン Ungoliant を用いて,行レベルで Common Crawl からデータを抽出・分類し,新たな文書指向版 OSCAR を作成するための改良と自動アノテーションを提案する。
関連論文リスト
- CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Transfer Learning for British Sign Language Modelling [0.0]
手話を含む少数言語の研究は、データ不足によって妨げられている。
これは、ある言語で開発されたモデルを第2言語でモデルを構築するための出発点として再利用するトランスファーラーニング手法の開発につながった。
本稿では,英国手話の言語モデリングにおける微調整と層置換の2つの伝達学習手法について検討する。
論文 参考訳(メタデータ) (2020-06-03T10:13:29Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。