論文の概要: TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter
- arxiv url: http://arxiv.org/abs/2209.07562v3
- Date: Sun, 27 Aug 2023 02:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:45:11.542965
- Title: TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter
- Title(参考訳): twhin-bert: twitterにおける多言語ツイート表現のためのソーシャルエンリッチな事前学習言語モデル
- Authors: Xinyang Zhang, Yury Malkov, Omar Florez, Serim Park, Brian McWilliams,
Jiawei Han, Ahmed El-Kishky
- Abstract要約: TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
- 参考スコア(独自算出の注目度): 31.698196219228024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) are fundamental for natural language
processing applications. Most existing PLMs are not tailored to the noisy
user-generated text on social media, and the pre-training does not factor in
the valuable social engagement logs available in a social network. We present
TwHIN-BERT, a multilingual language model productionized at Twitter, trained on
in-domain data from the popular social network. TwHIN-BERT differs from prior
pre-trained language models as it is trained with not only text-based
self-supervision, but also with a social objective based on the rich social
engagements within a Twitter heterogeneous information network (TwHIN). Our
model is trained on 7 billion tweets covering over 100 distinct languages,
providing a valuable representation to model short, noisy, user-generated text.
We evaluate our model on various multilingual social recommendation and
semantic understanding tasks and demonstrate significant metric improvement
over established pre-trained language models. We open-source TwHIN-BERT and our
curated hashtag prediction and social engagement benchmark datasets to the
research community.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は自然言語処理アプリケーションの基本である。
ほとんどの既存のPLMは、ソーシャルメディア上の騒々しいユーザー生成テキストに適合せず、事前学習は、ソーシャルネットワークで利用可能な貴重なソーシャルエンゲージメントログに影響を及ぼさない。
TwHIN-BERTは、Twitterで制作された多言語言語モデルであり、人気のあるソーシャルネットワークのドメイン内データに基づいて訓練されている。
TwHIN-BERTは、テキストベースのセルフスーパービジョンだけでなく、Twitterの異種情報ネットワーク(TwHIN)内でのリッチなソーシャルエンゲージメントに基づく社会的目的によって訓練されているため、事前訓練済みの言語モデルとは異なる。
私たちのモデルは、100以上の異なる言語をカバーする70億のつぶやきに基づいてトレーニングされています。
我々は,多言語ソーシャルレコメンデーションとセマンティック理解タスクにおけるモデル評価を行い,既存の学習済み言語モデルよりも大幅に改善されていることを示す。
我々はTwHIN-BERTをオープンソース化し、得られたハッシュタグ予測とソーシャルエンゲージメントベンチマークデータセットを研究コミュニティに公開しました。
関連論文リスト
- Measuring Social Norms of Large Language Models [13.648679166997693]
本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。
我々のデータセットは、402のスキルと12,383の質問からなる、最大の社会的規範スキルのセットを特徴としている。
本研究では,大規模言語モデルに基づくマルチエージェント・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:58:57Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - LMSOC: An Approach for Socially Sensitive Pretraining [4.857837729560728]
本稿では,大規模言語モデルの学習表現に話者社会コンテキストを組み込むための,シンプルで効果的な手法を提案する。
提案手法はまず,まずグラフ表現学習アルゴリズムを用いて社会的文脈の密集表現を学習し,次にこれらの社会的文脈表現で事前学習する素数言語モデルを学習する。
論文 参考訳(メタデータ) (2021-10-20T00:10:37Z) - Improved Multilingual Language Model Pretraining for Social Media Text
via Translation Pair Prediction [1.14219428942199]
ソーシャルメディアコーパス上でmBERTのゼロショット多言語移動を改善するための簡単なアプローチを評価する。
提案手法は,ソースターゲット言語間の翻訳へのアクセスを前提としている。
英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPP事前訓練の改善を示す。
論文 参考訳(メタデータ) (2021-10-20T00:06:26Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - TweetBERT: A Pretrained Language Representation Model for Twitter Text
Analysis [0.0]
我々は、何百万ものツイートで事前訓練されたドメイン固有言語プレゼンテーションモデルである2つのTweetBERTモデルを紹介した。
TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。
論文 参考訳(メタデータ) (2020-10-17T00:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。