Fugu-MT 論文翻訳(概要): RoBERTuito: a pre-trained language model for social media text in Spanish

論文の概要: RoBERTuito: a pre-trained language model for social media text in Spanish

arxiv url: http://arxiv.org/abs/2111.09453v1
Date: Thu, 18 Nov 2021 00:10:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 23:12:53.786596
Title: RoBERTuito: a pre-trained language model for social media text in Spanish
Title（参考訳）: RoBERTuito: スペイン語のソーシャルメディアテキストのための事前訓練言語モデル
Authors: Juan Manuel P\'erez, Dami\'an A. Furman, Laura Alonso Alemany, Franco Luque
Abstract要約: RoBERTuitoは、スペイン語でユーザー生成コンテンツのための事前訓練された言語モデルである。スペイン語で5億のツイートでRoBERTuitoを訓練しました。
参考スコア（独自算出の注目度）: 1.376408511310322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since BERT appeared, Transformer language models and transfer learning have become state-of-the-art for Natural Language Understanding tasks. Recently, some works geared towards pre-training, specially-crafted models for particular domains, such as scientific papers, medical documents, and others. In this work, we present RoBERTuito, a pre-trained language model for user-generated content in Spanish. We trained RoBERTuito on 500 million tweets in Spanish. Experiments on a benchmark of 4 tasks involving user-generated text showed that RoBERTuito outperformed other pre-trained language models for Spanish. In order to help further research, we make RoBERTuito publicly available at the HuggingFace model hub.
Abstract（参考訳）: BERTが登場して以来、トランスフォーマー言語モデルとトランスファーラーニングは自然言語理解タスクの最先端技術となっている。近年では、科学論文や医学文書など、特定の分野の事前訓練、特製モデルに向けられた作品もある。本稿では,スペイン語のユーザ生成コンテンツのための事前学習型言語モデルRoBERTuitoを紹介する。スペイン語の5億ツイートでRoBERTuitoを訓練しました。ユーザ生成テキストを含む4つのタスクのベンチマーク実験では、RoBERTuitoがスペイン語の事前学習言語モデルよりも優れていた。さらなる研究を支援するため、RoBERTuitoをHuggingFaceモデルハブで公開しています。

関連論文リスト

Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。また、スペイン語用のタスクを1つのリポジトリにまとめました。我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文参考訳（メタデータ） (2023-08-06T00:16:04Z)
RoBERTweet: A BERT Language Model for Romanian Tweets [0.15293427903448023]
この記事ではルーマニアのツイートでトレーニングされた最初のTransformerアーキテクチャであるRoBERTweetを紹介します。モデルの事前訓練に使用されるコーパスは、ルーマニアのNLPコミュニティの斬新さを表している。実験の結果,RoBERTweet は3つの NLP タスクにおいて,これまでの汎用言語モデルと多言語言語モデルより優れていることがわかった。
論文参考訳（メタデータ） (2023-06-11T06:11:56Z)
RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文参考訳（メタデータ） (2022-11-15T14:55:53Z)
Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文参考訳（メタデータ） (2022-11-03T13:19:32Z)
TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文参考訳（メタデータ） (2022-09-15T19:01:21Z)
RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文参考訳（メタデータ） (2022-04-08T09:18:59Z)
BERTuit: Understanding Spanish language in Twitter through a native transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文参考訳（メタデータ） (2022-04-07T14:28:51Z)
From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文参考訳（メタデータ） (2022-02-18T22:17:22Z)
Scribosermo: Fast Speech-to-Text models for German and other Languages [69.7571480246023]
本稿では,ドイツ語とスペイン語とフランス語の特殊特徴を持つ音声テキストモデルについて述べる。それらは小さく、RaspberryPiのようなマイクロコントローラ上でリアルタイムで実行される。事前トレーニングされた英語モデルを使用して、比較的小さなデータセットで、コンシューマグレードのハードウェアでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-15T10:10:34Z)
GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。 GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文参考訳（メタデータ） (2020-12-03T17:45:03Z)
Pretrained Language Model Embryology: The Birth of ALBERT [68.5801642674541]
ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
論文参考訳（メタデータ） (2020-10-06T05:15:39Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。