論文の概要: ReportAGE: Automatically extracting the exact age of Twitter users based
on self-reports in tweets
- arxiv url: http://arxiv.org/abs/2103.06357v1
- Date: Wed, 10 Mar 2021 22:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:49:32.049118
- Title: ReportAGE: Automatically extracting the exact age of Twitter users based
on self-reports in tweets
- Title(参考訳): レポート:ツイートの自己報告に基づいて、twitterユーザーの正確な年齢を自動的に抽出する
- Authors: Ari Z. Klein, Arjun Magge, Graciela Gonzalez-Hernandez
- Abstract要約: ツイート中の自己報告に基づいて,ユーザの正確な年齢を自動的に識別する手法を開発し,評価する。
レポートには、年齢に言及する可能性のあるツイートを検索するクエリパターン、ユーザーの正確な年齢(年齢)を自己報告する検索されたツイートとそうでないツイートを識別する分類器(年齢なしツイート)が含まれている。
われわれは、245,927ユーザーが投稿した12億以上のツイートにReportAGEをデプロイし、132,637人(54%)の年齢を予測する。
- 参考スコア(独自算出の注目度): 2.4023533428500325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancing the utility of social media data for research applications requires
methods for automatically detecting demographic information about social media
study populations, including users' age. The objective of this study was to
develop and evaluate a method that automatically identifies the exact age of
users based on self-reports in their tweets. Our end-to-end automatic natural
language processing (NLP) pipeline, ReportAGE, includes query patterns to
retrieve tweets that potentially mention an age, a classifier to distinguish
retrieved tweets that self-report the user's exact age ("age" tweets) and those
that do not ("no age" tweets), and rule-based extraction to identify the age.
To develop and evaluate ReportAGE, we manually annotated 11,000 tweets that
matched the query patterns. Based on 1000 tweets that were annotated by all
five annotators, inter-annotator agreement (Fleiss' kappa) was 0.80 for
distinguishing "age" and "no age" tweets, and 0.95 for identifying the exact
age among the "age" tweets on which the annotators agreed. A deep neural
network classifier, based on a RoBERTa-Large pretrained model, achieved the
highest F1-score of 0.914 (precision = 0.905, recall = 0.942) for the "age"
class. When the age extraction was evaluated using the classifier's
predictions, it achieved an F1-score of 0.855 (precision = 0.805, recall =
0.914) for the "age" class. When it was evaluated directly on the held-out test
set, it achieved an F1-score of 0.931 (precision = 0.873, recall = 0.998) for
the "age" class. We deployed ReportAGE on more than 1.2 billion tweets posted
by 245,927 users, and predicted ages for 132,637 (54%) of them. Scaling the
detection of exact age to this large number of users can advance the utility of
social media data for research applications that do not align with the
predefined age groupings of extant binary or multi-class classification
approaches.
- Abstract(参考訳): 研究アプリケーションにおけるソーシャルメディアデータの有用性向上には,利用者年齢を含むソーシャルメディア研究人口の人口統計情報を自動的に検出する手法が必要である。
本研究の目的は、ツイート中の自己報告に基づいて、ユーザの正確な年齢を自動的に識別する手法を開発し、評価することである。
エンドツーエンドの自動自然言語処理(NLP)パイプラインであるReportAGEには、年齢に言及する可能性のあるツイートを検索するためのクエリパターン、ユーザの正確な年齢("age"Tweet)を自己レポートする検索ツイートを識別する分類器、年齢を識別するためのルールベースの抽出が含まれている。
レポートの作成と評価のために,クエリパターンにマッチする11,000のつぶやきを手作業でアノテートした。
5つの注釈者全員によって注釈付された1000のツイートに基づいて、注釈間合意(fleiss' kappa)は「年齢」と「年齢なし」のツイートを識別する0.80、注釈者が同意した「年齢」のツイートのうち正確な年齢を特定する0.95であった。
ディープニューラルネットワーク分類器は、roberta-large pretrainedモデルに基づいて、"age"クラスで0.914(precision = 0.905, recall = 0.942)の最高値を達成した。
分類器の予測を用いて年齢抽出を評価すると、"age"クラスに対して0.855(precision = 0.805, recall = 0.914)のf1スコアを達成した。
ホールドアウトテストセットで直接評価すると、"age"クラスに対して0.931(precision = 0.873, recall = 0.998)のf1スコアを達成した。
われわれは、245,927ユーザーが投稿した12億以上のツイートにReportAGEを配置し、その年齢を132,637人(54%)と予測した。
この多数のユーザに正確な年齢の検出をスケールすることは、既存のバイナリやマルチクラス分類アプローチの既定年齢グループと一致しない研究アプリケーションのためのソーシャルメディアデータの有用性を前進させることができる。
関連論文リスト
- Text Augmentations with R-drop for Classification of Tweets Self
Reporting Covid-19 [28.91836510067532]
本稿では,ソーシャル・メディア・マイニング・フォー・ヘルス2023共有タスクのためのモデルを提案する。
我々のアプローチは、多種多様なテキスト拡張を取り入れた分類モデルである。
テストセットのF1スコアは0.877である。
論文 参考訳(メタデータ) (2023-11-06T14:18:16Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline [47.61306219245444]
Twitterは、ボットや偽アカウントのターゲットとなり、偽情報や操作の拡散につながった。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
論文 参考訳(メタデータ) (2023-05-31T09:12:35Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - How Will Your Tweet Be Received? Predicting the Sentiment Polarity of
Tweet Replies [3.5263924621989196]
我々は新しいタスクを提案する:与えられたツイートに対する(第一次)応答の主観的な感情を予測する。
私たちは、感情ラベルを手動でアノテートしたツイートと返信の大規模なデータセットであるRETWEETを作成します。
自動ラベル付きデータを使用して、ニューラルネットワークの教師付きトレーニングを行い、元のツイートからの返信感情を予測する。
論文 参考訳(メタデータ) (2021-04-21T13:08:45Z) - A ground-truth dataset and classification model for detecting bots in
GitHub issue and PR comments [70.1864008701113]
ボットはGithubリポジトリで、分散ソフトウェア開発プロセスの一部である反復的なアクティビティを自動化するために使用されている。
本稿では,5000のGithubアカウントのプルリクエストとコメント発行に関する,高い相互契約を伴う手動分析に基づいて,基幹トラスデータセットを提案する。
ボットを検出する自動分類モデルを提案し,各アカウントの空のコメント数と空でないコメント数,コメントパターンの数,コメントパターン内のコメント間の不平等を主特徴とする。
論文 参考訳(メタデータ) (2020-10-07T09:30:52Z) - Utilizing Deep Learning to Identify Drug Use on Twitter Data [0.0]
サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。
精度は76.35%と82.31%で、AUCは0.90と0.91である。
合成されたセットはスコアを増やし、分類能力を改善し、この方法論の価値を証明した。
論文 参考訳(メタデータ) (2020-03-08T07:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。