論文の概要: Context-Based Tweet Engagement Prediction
- arxiv url: http://arxiv.org/abs/2310.03147v1
- Date: Thu, 28 Sep 2023 08:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 04:46:47.333550
- Title: Context-Based Tweet Engagement Prediction
- Title(参考訳): 文脈に基づくツイートエンゲージメント予測
- Authors: Jovan Jeromela
- Abstract要約: この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Twitter is currently one of the biggest social media platforms. Its users may
share, read, and engage with short posts called tweets. For the ACM Recommender
Systems Conference 2020, Twitter published a dataset around 70 GB in size for
the annual RecSys Challenge. In 2020, the RecSys Challenge invited
participating teams to create models that would predict engagement likelihoods
for given user-tweet combinations. The submitted models predicting like, reply,
retweet, and quote engagements were evaluated based on two metrics: area under
the precision-recall curve (PRAUC) and relative cross-entropy (RCE).
In this diploma thesis, we used the RecSys 2020 Challenge dataset and
evaluation procedure to investigate how well context alone may be used to
predict tweet engagement likelihood. In doing so, we employed the Spark engine
on TU Wien's Little Big Data Cluster to create scalable data preprocessing,
feature engineering, feature selection, and machine learning pipelines. We
manually created just under 200 additional features to describe tweet context.
The results indicate that features describing users' prior engagement history
and the popularity of hashtags and links in the tweet were the most
informative. We also found that factors such as the prediction algorithm,
training dataset size, training dataset sampling method, and feature selection
significantly affect the results. After comparing the best results of our
context-only prediction models with content-only models and with models
developed by the Challenge winners, we identified that the context-based models
underperformed in terms of the RCE score. This work thus concludes by situating
this discrepancy and proposing potential improvements to our implementation,
which is shared in a public git repository.
- Abstract(参考訳): Twitterは現在、最大のソーシャルメディアプラットフォームの一つだ。
ユーザーはツイートと呼ばれる短い投稿を共有し、読み、エンゲージメントすることができる。
ACM Recommender Systems Conference 2020で、Twitterは毎年恒例のRecSys Challengeのために約70GBのデータセットを公開した。
2020年、RecSys Challengeは参加チームを招待し、ユーザーとツイートの組み合わせのエンゲージメント率を予測するモデルを作成した。
提案したモデルでは,高精度リコール曲線(PRAUC)下の領域と相対的クロスエントロピー(RCE)の2つの指標に基づいて,応答,リツイート,引用エンゲージを予測した。
この学位論文では、RecSys 2020 Challengeデータセットと評価手順を用いて、ツイートエンゲージメントの確率を予測するために、文脈のみがどの程度うまく使われているかを調べる。
そうするために、TU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
ツイートコンテキストを記述するために、手動で200以上の機能を追加しました。
その結果,ユーザの先行エンゲージメント履歴とハッシュタグやツイートのリンクの人気を記述した特徴が最も有益であることが示唆された。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
コンテントオンリー予測モデルとコンテントオンリー予測モデルとを比較し,コンテントオンリー予測モデルとコンテントオンリー予測モデルの比較を行った結果,コンテクストベースモデルではrceスコアが低かったことがわかった。
この作業は、この不一致を解消し、パブリックなgitリポジトリで共有される実装に潜在的な改善を提案することで、結論付けます。
関連論文リスト
- Generator-Guided Crowd Reaction Assessment [4.1756520114950035]
本稿では、あるソーシャルメディア投稿が他の投稿よりも多くの反応を受けるかどうかを推定するために設計された集団反応評価タスクを提案する。
我々は,ホワイトハウスのツイート対とリツイート数の比較尺度からなる集合反応推定データセット(CRED)を紹介する。
以上の結果から,Claude が生成したツイート内容と応答を含むクロスエンコーダアーキテクチャを用いて,微調整したFLANG-RoBERTa モデルが最適に動作することがわかった。
論文 参考訳(メタデータ) (2024-03-08T13:05:44Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline [47.61306219245444]
Twitterは、ボットや偽アカウントのターゲットとなり、偽情報や操作の拡散につながった。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
論文 参考訳(メタデータ) (2023-05-31T09:12:35Z) - Predicting the Geolocation of Tweets Using transformer models on Customized Data [17.55660062746406]
本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
論文 参考訳(メタデータ) (2023-03-14T12:56:47Z) - Design and analysis of tweet-based election models for the 2021 Mexican
legislative election [55.41644538483948]
選挙日前の6ヶ月の間に、1500万件の選挙関連ツイートのデータセットを使用します。
地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。
論文 参考訳(メタデータ) (2023-01-02T12:40:05Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Synerise at RecSys 2021: Twitter user engagement prediction with a fast
neural model [0.745554610293091]
私たちはTwitterが主催したACM RecSys 2021 Challengeに,第2位のソリューションを提示します。
この課題は、ツイートの集合に対するユーザーのエンゲージメントを予測することであり、10億のデータポイントからなる非常に大きなデータセットを提供する。
単一のツィートエンゲージメント予測の平均推測時間は、64GBメモリを持つ単一のCPUコア上で6msに制限される。
論文 参考訳(メタデータ) (2021-09-23T13:51:09Z) - Model Bias in NLP -- Application to Hate Speech Classification [0.0]
本論文は2021年春季のETHにおけるNLP講義の結果をまとめたものである。
この研究では、JIGSAWデータセットにBERTベースのニューラルネットワークモデルを適用する。
精度は64%から90%程度で、少なくとも60%以下で許容できるリコール値を実現しています。
論文 参考訳(メタデータ) (2021-09-20T17:56:08Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Sentiment Analysis on Social Media Content [0.0]
本研究の目的は,Twitterから収集した実データの感情分析を行うモデルを提案することである。
Twitterのデータは非常に非構造化されており、分析が困難である。
提案手法は,教師付き機械学習アルゴリズムと教師なし機械学習アルゴリズムの併用により,この分野の先行研究とは異なる。
論文 参考訳(メタデータ) (2020-07-04T17:03:30Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。