論文の概要: Context-Based Tweet Engagement Prediction
- arxiv url: http://arxiv.org/abs/2310.03147v1
- Date: Thu, 28 Sep 2023 08:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 04:46:47.333550
- Title: Context-Based Tweet Engagement Prediction
- Title(参考訳): 文脈に基づくツイートエンゲージメント予測
- Authors: Jovan Jeromela
- Abstract要約: この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Twitter is currently one of the biggest social media platforms. Its users may
share, read, and engage with short posts called tweets. For the ACM Recommender
Systems Conference 2020, Twitter published a dataset around 70 GB in size for
the annual RecSys Challenge. In 2020, the RecSys Challenge invited
participating teams to create models that would predict engagement likelihoods
for given user-tweet combinations. The submitted models predicting like, reply,
retweet, and quote engagements were evaluated based on two metrics: area under
the precision-recall curve (PRAUC) and relative cross-entropy (RCE).
In this diploma thesis, we used the RecSys 2020 Challenge dataset and
evaluation procedure to investigate how well context alone may be used to
predict tweet engagement likelihood. In doing so, we employed the Spark engine
on TU Wien's Little Big Data Cluster to create scalable data preprocessing,
feature engineering, feature selection, and machine learning pipelines. We
manually created just under 200 additional features to describe tweet context.
The results indicate that features describing users' prior engagement history
and the popularity of hashtags and links in the tweet were the most
informative. We also found that factors such as the prediction algorithm,
training dataset size, training dataset sampling method, and feature selection
significantly affect the results. After comparing the best results of our
context-only prediction models with content-only models and with models
developed by the Challenge winners, we identified that the context-based models
underperformed in terms of the RCE score. This work thus concludes by situating
this discrepancy and proposing potential improvements to our implementation,
which is shared in a public git repository.
- Abstract(参考訳): Twitterは現在、最大のソーシャルメディアプラットフォームの一つだ。
ユーザーはツイートと呼ばれる短い投稿を共有し、読み、エンゲージメントすることができる。
ACM Recommender Systems Conference 2020で、Twitterは毎年恒例のRecSys Challengeのために約70GBのデータセットを公開した。
2020年、RecSys Challengeは参加チームを招待し、ユーザーとツイートの組み合わせのエンゲージメント率を予測するモデルを作成した。
提案したモデルでは,高精度リコール曲線(PRAUC)下の領域と相対的クロスエントロピー(RCE)の2つの指標に基づいて,応答,リツイート,引用エンゲージを予測した。
この学位論文では、RecSys 2020 Challengeデータセットと評価手順を用いて、ツイートエンゲージメントの確率を予測するために、文脈のみがどの程度うまく使われているかを調べる。
そうするために、TU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
ツイートコンテキストを記述するために、手動で200以上の機能を追加しました。
その結果,ユーザの先行エンゲージメント履歴とハッシュタグやツイートのリンクの人気を記述した特徴が最も有益であることが示唆された。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
コンテントオンリー予測モデルとコンテントオンリー予測モデルとを比較し,コンテントオンリー予測モデルとコンテントオンリー予測モデルの比較を行った結果,コンテクストベースモデルではrceスコアが低かったことがわかった。
この作業は、この不一致を解消し、パブリックなgitリポジトリで共有される実装に潜在的な改善を提案することで、結論付けます。
関連論文リスト
- BotArtist: Twitter bot detection Machine Learning model based on Twitter
suspension [50.4515540006269]
われわれは、最近のロシアとウクライナの戦争に関する900万人のユーザーから生まれた、Twitter上の難解で多言語的なソーシャル談話のデータセットを集めている。
我々は最先端のXGBoostモデルを用いて,ボット検出のための新しいMLモデルを構築した。
Botometerと比較して、我々の手法は、2つの実ケースシナリオデータセットよりも平均11%高いROC-AUCスコアを達成する。
論文 参考訳(メタデータ) (2023-05-31T09:12:35Z) - Geolocation Predicting of Tweets Using BERT-Based Models [27.806085423595334]
本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
論文 参考訳(メタデータ) (2023-03-14T12:56:47Z) - Design and analysis of tweet-based election models for the 2021 Mexican
legislative election [55.41644538483948]
選挙日前の6ヶ月の間に、1500万件の選挙関連ツイートのデータセットを使用します。
地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。
論文 参考訳(メタデータ) (2023-01-02T12:40:05Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Synerise at RecSys 2021: Twitter user engagement prediction with a fast
neural model [0.745554610293091]
私たちはTwitterが主催したACM RecSys 2021 Challengeに,第2位のソリューションを提示します。
この課題は、ツイートの集合に対するユーザーのエンゲージメントを予測することであり、10億のデータポイントからなる非常に大きなデータセットを提供する。
単一のツィートエンゲージメント予測の平均推測時間は、64GBメモリを持つ単一のCPUコア上で6msに制限される。
論文 参考訳(メタデータ) (2021-09-23T13:51:09Z) - Model Bias in NLP -- Application to Hate Speech Classification [0.0]
本論文は2021年春季のETHにおけるNLP講義の結果をまとめたものである。
この研究では、JIGSAWデータセットにBERTベースのニューラルネットワークモデルを適用する。
精度は64%から90%程度で、少なくとも60%以下で許容できるリコール値を実現しています。
論文 参考訳(メタデータ) (2021-09-20T17:56:08Z) - Understanding Information Spreading Mechanisms During COVID-19 Pandemic
by Analyzing the Impact of Tweet Text and User Features for Retweet
Prediction [6.658785818853953]
新型コロナウイルスは世界の経済や、ほぼすべての人々の日常生活に影響を与えている。
ソーシャルメディアプラットフォームは、情報を共有できる他のユーザーと情報を共有できる。
CNNとRNNをベースとした2つのモデルを提案し、これらのモデルの性能を公開のTweetsCOV19データセットで評価する。
論文 参考訳(メタデータ) (2021-05-26T15:55:58Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Sentiment Analysis on Social Media Content [0.0]
本研究の目的は,Twitterから収集した実データの感情分析を行うモデルを提案することである。
Twitterのデータは非常に非構造化されており、分析が困難である。
提案手法は,教師付き機械学習アルゴリズムと教師なし機械学習アルゴリズムの併用により,この分野の先行研究とは異なる。
論文 参考訳(メタデータ) (2020-07-04T17:03:30Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。