論文の概要: BERTuit: Understanding Spanish language in Twitter through a native
transformer
- arxiv url: http://arxiv.org/abs/2204.03465v1
- Date: Thu, 7 Apr 2022 14:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:30:48.369787
- Title: BERTuit: Understanding Spanish language in Twitter through a native
transformer
- Title(参考訳): BERTuit:Twitterでスペイン語をネイティブトランスフォーマーで理解する
- Authors: Javier Huertas-Tato and Alejandro Martin and David Camacho
- Abstract要約: bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
- 参考スコア(独自算出の注目度): 70.77033762320572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The appearance of complex attention-based language models such as BERT,
Roberta or GPT-3 has allowed to address highly complex tasks in a plethora of
scenarios. However, when applied to specific domains, these models encounter
considerable difficulties. This is the case of Social Networks such as Twitter,
an ever-changing stream of information written with informal and complex
language, where each message requires careful evaluation to be understood even
by humans given the important role that context plays. Addressing tasks in this
domain through Natural Language Processing involves severe challenges. When
powerful state-of-the-art multilingual language models are applied to this
scenario, language specific nuances use to get lost in translation. To face
these challenges we present \textbf{BERTuit}, the larger transformer proposed
so far for Spanish language, pre-trained on a massive dataset of 230M Spanish
tweets using RoBERTa optimization. Our motivation is to provide a powerful
resource to better understand Spanish Twitter and to be used on applications
focused on this social network, with special emphasis on solutions devoted to
tackle the spreading of misinformation in this platform. BERTuit is evaluated
on several tasks and compared against M-BERT, XLM-RoBERTa and XLM-T, very
competitive multilingual transformers. The utility of our approach is shown
with applications, in this case: a zero-shot methodology to visualize groups of
hoaxes and profiling authors spreading disinformation.
Misinformation spreads wildly on platforms such as Twitter in languages other
than English, meaning performance of transformers may suffer when transferred
outside English speaking communities.
- Abstract(参考訳): BERT、Roberta、GPT-3のような複雑な注意に基づく言語モデルの出現により、多くのシナリオにおいて非常に複雑なタスクに対処できるようになった。
しかし、特定の領域に適用すると、これらのモデルは非常に困難になる。
これは、非公式で複雑な言語で書かれた情報の流れが変化し続けるTwitterのようなソーシャルネットワークのケースで、各メッセージは、コンテキストが果たす重要な役割を与えられたとしても、慎重に評価する必要がある。
自然言語処理を通じてこのドメインのタスクに取り組むには、厳しい課題が伴う。
このシナリオに強力な最先端の多言語モデルを適用すると、言語固有のニュアンスは翻訳中に失われる。
これらの課題に対処するために、これまでにスペイン語用に提案された大きなトランスフォーマーである \textbf{BERTuit} を、RoBERTa最適化を使用して2億3000万のスペイン語ツイートの巨大なデータセットで事前トレーニングした。
私たちのモチベーションは、スペインのtwitterをよりよく理解するための強力なリソースを提供することと、このソーシャルネットワークにフォーカスしたアプリケーションでの使用です。
BERTuitは、M-BERT、XLM-RoBERTa、XLM-T、非常に競争力のある多言語変換器と比較される。
本手法の応用例は, 偽情報の群を可視化し, 偽情報を拡散する著者をプロファイリングするためのゼロショット手法である。
誤報は英語以外の言語でTwitterなどのプラットフォームに広まり、英語を話すコミュニティ以外ではトランスフォーマーのパフォーマンスが損なわれる可能性がある。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot [1.3741556944830366]
本研究により, GPT 3.5は, 英語, よるば, 英語のコード変更文を生成することができた。
ヨルバのような非ラテン文字を用いた言語の文の質は、アフリカーンス英語の成功率と比較してかなり低い。
本稿では,GPTを用いた合成コードスイッチングデータの多様性向上のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T07:44:44Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。