論文の概要: RoBERTuito: a pre-trained language model for social media text in
Spanish
- arxiv url: http://arxiv.org/abs/2111.09453v1
- Date: Thu, 18 Nov 2021 00:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 23:12:53.786596
- Title: RoBERTuito: a pre-trained language model for social media text in
Spanish
- Title(参考訳): RoBERTuito: スペイン語のソーシャルメディアテキストのための事前訓練言語モデル
- Authors: Juan Manuel P\'erez, Dami\'an A. Furman, Laura Alonso Alemany, Franco
Luque
- Abstract要約: RoBERTuitoは、スペイン語でユーザー生成コンテンツのための事前訓練された言語モデルである。
スペイン語で5億のツイートでRoBERTuitoを訓練しました。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since BERT appeared, Transformer language models and transfer learning have
become state-of-the-art for Natural Language Understanding tasks. Recently,
some works geared towards pre-training, specially-crafted models for particular
domains, such as scientific papers, medical documents, and others. In this
work, we present RoBERTuito, a pre-trained language model for user-generated
content in Spanish. We trained RoBERTuito on 500 million tweets in Spanish.
Experiments on a benchmark of 4 tasks involving user-generated text showed that
RoBERTuito outperformed other pre-trained language models for Spanish. In order
to help further research, we make RoBERTuito publicly available at the
HuggingFace model hub.
- Abstract(参考訳): BERTが登場して以来、トランスフォーマー言語モデルとトランスファーラーニングは自然言語理解タスクの最先端技術となっている。
近年では、科学論文や医学文書など、特定の分野の事前訓練、特製モデルに向けられた作品もある。
本稿では,スペイン語のユーザ生成コンテンツのための事前学習型言語モデルRoBERTuitoを紹介する。
スペイン語の5億ツイートでRoBERTuitoを訓練しました。
ユーザ生成テキストを含む4つのタスクのベンチマーク実験では、RoBERTuitoがスペイン語の事前学習言語モデルよりも優れていた。
さらなる研究を支援するため、RoBERTuitoをHuggingFaceモデルハブで公開しています。
関連論文リスト
- Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - RoBERTweet: A BERT Language Model for Romanian Tweets [0.15293427903448023]
この記事ではルーマニアのツイートでトレーニングされた最初のTransformerアーキテクチャであるRoBERTweetを紹介します。
モデルの事前訓練に使用されるコーパスは、ルーマニアのNLPコミュニティの斬新さを表している。
実験の結果,RoBERTweet は3つの NLP タスクにおいて,これまでの汎用言語モデルと多言語言語モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-11T06:11:56Z) - RobBERT-2022: Updating a Dutch Language Model to Account for Evolving
Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。
まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文 参考訳(メタデータ) (2022-11-15T14:55:53Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Scribosermo: Fast Speech-to-Text models for German and other Languages [69.7571480246023]
本稿では,ドイツ語とスペイン語とフランス語の特殊特徴を持つ音声テキストモデルについて述べる。
それらは小さく、RaspberryPiのようなマイクロコントローラ上でリアルタイムで実行される。
事前トレーニングされた英語モデルを使用して、比較的小さなデータセットで、コンシューマグレードのハードウェアでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-15T10:10:34Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文 参考訳(メタデータ) (2020-10-06T05:15:39Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。