論文の概要: On the Inference of Sociodemographics on Reddit
- arxiv url: http://arxiv.org/abs/2502.05049v1
- Date: Fri, 07 Feb 2025 16:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:06.947479
- Title: On the Inference of Sociodemographics on Reddit
- Title(参考訳): Redditにおけるソシオドモグラフィーの推論について
- Authors: Federico Cinus, Corrado Monti, Paolo Bajardi, Gianmarco De Francisci Morales,
- Abstract要約: Redditのコメントから年齢、性別、パルチザン関連に関する850万以上の自己宣言からなる新しいデータセットを使用します。
私たちは、バイナリラベル(分類)の予測(i$)と、ユーザの集合の中での人口統計クラスの頻度を予測(ii$)という2つのタスクで行います。
- 参考スコア(独自算出の注目度): 5.524795406792588
- License:
- Abstract: Inference of sociodemographic attributes of social media users is an essential step for computational social science (CSS) research to link online and offline behavior. However, there is a lack of a systematic evaluation and clear guidelines for optimal methodologies for this task on Reddit, one of today's largest social media. In this study, we fill this gap by comparing state-of-the-art (SOTA) and probabilistic models. To this end, first we collect a novel data set of more than 850k self-declarations on age, gender, and partisan affiliation from Reddit comments. Then, we systematically compare alternatives to the widely used embedding-based model and labeling techniques for the definition of the ground-truth. We do so on two tasks: ($i$) predicting binary labels (classification); and ($ii$)~predicting the prevalence of a demographic class among a set of users (quantification). Our findings reveal that Naive Bayes models not only offer transparency and interpretability by design but also consistently outperform the SOTA. Specifically, they achieve an improvement in ROC AUC of up to $19\%$ and maintain a mean absolute error (MAE) below $15\%$ in quantification for large-scale data settings. Finally, we discuss best practices for researchers in CSS, emphasizing coverage, interpretability, reliability, and scalability. The code and model weights used for the experiments are publicly available.\footnote{https://anonymous.4open.science/r/SDI-submission-5234}
- Abstract(参考訳): ソーシャルメディア利用者の社会デマログラフ的属性の推測は、オンラインとオフラインの行動を結びつけるための計算社会科学(CSS)研究にとって不可欠なステップである。
しかし、今日の最大のソーシャルメディアの一つであるRedditでは、このタスクの最適な方法論に関する体系的な評価と明確なガイドラインが欠如している。
本研究では,最新技術(SOTA)と確率モデルを比較することで,このギャップを埋める。
この目的のために、まず、Redditのコメントから年齢、性別、パルチザン関連に関する850万以上の自己宣言からなる新しいデータセットを収集します。
そこで本研究では,広く使用されている埋め込みモデルと,基底構造定義のためのラベリング手法の代替案を体系的に比較する。
私たちは、バイナリラベル(分類)を予測する(i$)と、一連のユーザ(量子化)間での人口統計クラスの適用率を予測する(ii$)の2つのタスクでそうします。
以上の結果から,Naive Bayesモデルは設計による透明性と解釈性を提供するだけでなく,SOTAを一貫して上回っていることが明らかとなった。
具体的には、ROC AUCを19ドルまで改善し、大規模データ設定の定量化において平均絶対誤差(MAE)を15ドル以下に維持する。
最後に、CSSの研究者にとってのベストプラクティスについて議論し、カバレッジ、解釈可能性、信頼性、スケーラビリティを強調します。
実験に使用するコードとモデルの重み付けは公開されています。
\footnote{https://anonymous.4open.science/r/SDI-submission-5234}
関連論文リスト
- Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - Using Imperfect Surrogates for Downstream Inference: Design-based
Supervised Learning for Social Science Applications of Large Language Models [0.2812395851874055]
計算社会科学 (CSS) は、社会的・政治的現象を説明するために文書を分析する。
文書を安価に大規模にアノテートする一般的な方法の1つは、大きな言語モデルによるものである。
本稿では,下流統計解析に不完全アノテーションサロゲートを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T19:49:41Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - A soft nearest-neighbor framework for continual semi-supervised learning [35.957577587090604]
本稿では,全てのデータサンプルがラベル付けされていない連続的半教師付き学習手法を提案する。
我々は、最も近い隣人の力を利用して、特徴空間を非線形に分割し、基礎となるデータ分布を柔軟にモデル化する。
提案手法は,低解像度画像と高解像度画像の両方で良好に動作し,より複雑なデータセットにシームレスにスケールする。
論文 参考訳(メタデータ) (2022-12-09T20:03:59Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - SimPLE: Similar Pseudo Label Exploitation for Semi-Supervised
Classification [24.386165255835063]
一般的な分類タスクの状況は、トレーニングに利用可能な大量のデータを持っているが、クラスラベルを持つのはごく一部である。
この文脈で、半監督トレーニングの目標は、大量のラベルのないデータからの情報を利用して分類精度を向上させることです。
本研究では,相互に類似した高信頼度ラベル付きデータ間の研究の少ない関係に焦点をあてた,教師なしの新たな目的を提案する。
提案したSimPLEアルゴリズムは,CIFAR-100およびMini-ImageNetにおける従来のアルゴリズムと比較して有意な性能向上を示した。
論文 参考訳(メタデータ) (2021-03-30T23:48:06Z) - Automatic Face Understanding: Recognizing Families in Photos [6.131589026706621]
親族認識のための最大のデータベースを構築します。
ビデオダイナミックス、オーディオ、テキストキャプションは、親族認識システムの意思決定に使用することができる。
論文 参考訳(メタデータ) (2021-01-10T22:37:25Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。