論文の概要: DADIT: A Dataset for Demographic Classification of Italian Twitter Users
and a Comparison of Prediction Methods
- arxiv url: http://arxiv.org/abs/2403.05700v1
- Date: Fri, 8 Mar 2024 22:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:53:22.854314
- Title: DADIT: A Dataset for Demographic Classification of Italian Twitter Users
and a Comparison of Prediction Methods
- Title(参考訳): DADIT: イタリアのTwitter利用者のデモグラフィー分類のためのデータセットと予測方法の比較
- Authors: Lorenzo Lupo, Paul Bose, Mahyar Habibi, Dirk Hovy, Carlo Schwarz
- Abstract要約: イタリアで20万のTwitterユーザーの3000万ツイートのDADITデータセットを構築し、検証し、公開します。
DADITは、ソーシャルメディア利用者の性別や年齢を予測するために、様々な最先端モデルの性能を訓練し比較することを可能にする。
- 参考スコア(独自算出の注目度): 20.590525489367955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social scientists increasingly use demographically stratified social media
data to study the attitudes, beliefs, and behavior of the general public. To
facilitate such analyses, we construct, validate, and release publicly the
representative DADIT dataset of 30M tweets of 20k Italian Twitter users, along
with their bios and profile pictures. We enrich the user data with high-quality
labels for gender, age, and location. DADIT enables us to train and compare the
performance of various state-of-the-art models for the prediction of the gender
and age of social media users. In particular, we investigate if tweets contain
valuable information for the task, since popular classifiers like M3 don't
leverage them. Our best XLM-based classifier improves upon the commonly used
competitor M3 by up to 53% F1. Especially for age prediction, classifiers
profit from including tweets as features. We also confirm these findings on a
German test set.
- Abstract(参考訳): 社会科学者は人口統計学的に階層化されたソーシャルメディアデータを使って、一般大衆の態度、信念、行動を研究する。
このような分析を容易にするために,イタリアの20万のTwitterユーザの300万ツイートのDADITデータセットを,そのバイオやプロフィール写真とともに構築し,検証し,公開する。
私たちは、性別、年齢、位置情報の質の高いラベルでユーザーデータを豊かにします。
DADITにより、ソーシャルメディア利用者の性別や年齢を予測する様々な最先端モデルの性能を訓練し比較することができる。
特に、M3のような人気のある分類器がそれらを活用していないため、ツイートにタスクに価値のある情報が含まれているかどうかを調べる。
我々の最高のXLMベースの分類器は、よく使われる競合M3を最大53%改善する。
特に年齢予測では、分類器はツイートを機能として含むことで利益を得る。
また、ドイツのテストセットでこれらの発見を確認した。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Design and analysis of tweet-based election models for the 2021 Mexican
legislative election [55.41644538483948]
選挙日前の6ヶ月の間に、1500万件の選挙関連ツイートのデータセットを使用します。
地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。
論文 参考訳(メタデータ) (2023-01-02T12:40:05Z) - Retweet-BERT: Political Leaning Detection Using Language Features and
Information Diffusion on Social Networks [30.143148646797265]
Retweet-BERTは、シンプルでスケーラブルなモデルで、Twitterユーザーの政治的傾向を推定する。
我々の仮定は、同様のイデオロギーを共有する人々の間で、ネットワークや言語学のパターンがホモフィリーであることに由来する。
論文 参考訳(メタデータ) (2022-07-18T02:18:20Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Towards A Sentiment Analyzer for Low-Resource Languages [0.0]
本研究は,当時盛んに議論されてきた特定のトレンドトピックに対して,ユーザの感情を分析することを目的としている。
2019年のインドネシア大統領選挙で話題になったハッシュタグのtextit#kpujangancurangを使っています。
本研究は,ラピッドマイニングツールを用いて,Twitterデータを生成し,Nieve Bayes,K-Nearest Neighbor,Decision Tree,Multi-Layer Perceptronの分類手法を比較し,Twitterデータの感情を分類する。
論文 参考訳(メタデータ) (2020-11-12T13:50:00Z) - TweetBERT: A Pretrained Language Representation Model for Twitter Text
Analysis [0.0]
我々は、何百万ものツイートで事前訓練されたドメイン固有言語プレゼンテーションモデルである2つのTweetBERTモデルを紹介した。
TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。
論文 参考訳(メタデータ) (2020-10-17T00:45:02Z) - Sentiment Analysis on Social Media Content [0.0]
本研究の目的は,Twitterから収集した実データの感情分析を行うモデルを提案することである。
Twitterのデータは非常に非構造化されており、分析が困難である。
提案手法は,教師付き機械学習アルゴリズムと教師なし機械学習アルゴリズムの併用により,この分野の先行研究とは異なる。
論文 参考訳(メタデータ) (2020-07-04T17:03:30Z) - TIMME: Twitter Ideology-detection via Multi-task Multi-relational
Embedding [26.074367752142198]
我々は、人々のイデオロギーや政治的傾向を予測する問題を解決することを目的としている。
我々は、Twitterデータを用いてそれを推定し、分類問題として定式化する。
論文 参考訳(メタデータ) (2020-06-02T00:00:39Z) - Privacy-Aware Recommender Systems Challenge on Twitter's Home Timeline [47.434392695347924]
ACM RecSysが主催するRecSys 2020 Challengeは、このデータセットを使用してTwitterと提携している。
本稿では,ユーザエンゲージメントを予測しようとする研究者や専門家が直面する課題について述べる。
論文 参考訳(メタデータ) (2020-04-28T23:54:33Z) - #MeToo on Campus: Studying College Sexual Assault at Scale Using Data
Reported on Social Media [71.74529365205053]
我々は、#トレンドが大学フォロワーのプールに与える影響を分析した。
その結果、これらの#ツイートに埋め込まれたトピックの大部分は、セクシャルハラスメントのストーリーを詳述している。
この傾向といくつかの主要地理的地域に関する公式な報告との間には大きな相関関係がある。
論文 参考訳(メタデータ) (2020-01-16T18:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。