論文の概要: RoBERTweet: A BERT Language Model for Romanian Tweets
- arxiv url: http://arxiv.org/abs/2306.06598v1
- Date: Sun, 11 Jun 2023 06:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:56:16.129803
- Title: RoBERTweet: A BERT Language Model for Romanian Tweets
- Title(参考訳): RoBERTweet: ルーマニアのつぶやきのためのBERT言語モデル
- Authors: Iulian-Marius T\u{a}iatu, Andrei-Marius Avram, Dumitru-Clementin
Cercel and Florin Pop
- Abstract要約: この記事ではルーマニアのツイートでトレーニングされた最初のTransformerアーキテクチャであるRoBERTweetを紹介します。
モデルの事前訓練に使用されるコーパスは、ルーマニアのNLPコミュニティの斬新さを表している。
実験の結果,RoBERTweet は3つの NLP タスクにおいて,これまでの汎用言語モデルと多言語言語モデルより優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.15293427903448023
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Developing natural language processing (NLP) systems for social media
analysis remains an important topic in artificial intelligence research. This
article introduces RoBERTweet, the first Transformer architecture trained on
Romanian tweets. Our RoBERTweet comes in two versions, following the base and
large architectures of BERT. The corpus used for pre-training the models
represents a novelty for the Romanian NLP community and consists of all tweets
collected from 2008 to 2022. Experiments show that RoBERTweet models outperform
the previous general-domain Romanian and multilingual language models on three
NLP tasks with tweet inputs: emotion detection, sexist language identification,
and named entity recognition. We make our models and the newly created corpus
of Romanian tweets freely available.
- Abstract(参考訳): ソーシャルメディア分析のための自然言語処理(NLP)システムの開発は、人工知能研究において重要なトピックである。
この記事ではルーマニアのツイートでトレーニングされた最初のTransformerアーキテクチャであるRoBERTweetを紹介します。
当社のRoBERTweetには,BERTのベースと大規模アーキテクチャの2つのバージョンがあります。
モデルの事前訓練に用いられるコーパスは、2008年から2022年にかけて収集された全ツイートからなるルーマニアのNLPコミュニティの新規性を表している。
実験の結果、RoBERTweetモデルは3つのNLPタスク(感情検出、性差別的言語識別、名前付きエンティティ認識)において、ルーマニア語および多言語言語モデルよりも優れていることが示された。
我々は、モデルと新しく作られたルーマニアのツイートのコーパスを自由に利用できるようにします。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - RobBERT-2022: Updating a Dutch Language Model to Account for Evolving
Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。
まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文 参考訳(メタデータ) (2022-11-15T14:55:53Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - RoBERTuito: a pre-trained language model for social media text in
Spanish [1.376408511310322]
RoBERTuitoは、スペイン語でユーザー生成コンテンツのための事前訓練された言語モデルである。
スペイン語で5億のツイートでRoBERTuitoを訓練しました。
論文 参考訳(メタデータ) (2021-11-18T00:10:25Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - TweetBERT: A Pretrained Language Representation Model for Twitter Text
Analysis [0.0]
我々は、何百万ものツイートで事前訓練されたドメイン固有言語プレゼンテーションモデルである2つのTweetBERTモデルを紹介した。
TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。
論文 参考訳(メタデータ) (2020-10-17T00:45:02Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - BERTweet: A pre-trained language model for English Tweets [14.575661723724005]
BERTweetは、英語のつぶやきのための、最初の大規模事前訓練型言語モデルである。
BERTweetはRoBERTa事前トレーニング手順を使ってトレーニングされる。
我々は、今後のつぶやきデータの研究と応用を容易にするために、MITライセンス下でBERTweetをリリースします。
論文 参考訳(メタデータ) (2020-05-20T17:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。