論文の概要: Uncovering the Sociodemographic Fabric of Reddit
- arxiv url: http://arxiv.org/abs/2502.05049v2
- Date: Mon, 03 Nov 2025 10:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:21.865984
- Title: Uncovering the Sociodemographic Fabric of Reddit
- Title(参考訳): Redditのソシオドモグラフィー・ファブリックを発見
- Authors: Federico Cinus, Corrado Monti, Paolo Bajardi, Gianmarco De Francisci Morales,
- Abstract要約: 本稿では,Reddit上での社会デマログラフ推論の原理的枠組みを紹介する。
我々は、年齢、性別、およびパルチザン関連に関する85万以上のユーザー自己宣言を活用している。
ROC AUCでは,最先端の分類性能を最大19%向上させる。
- 参考スコア(独自算出の注目度): 5.915947588383603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding the sociodemographic composition of online platforms is essential for accurately interpreting digital behavior and its societal implications. Yet, current methods often lack the transparency and reliability required, risking misrepresenting social identities and distorting our understanding of digital society. Here, we introduce a principled framework for sociodemographic inference on Reddit that leverages over 850,000 user self-declarations of age, gender, and partisan affiliation. By training models on sparse user activity signals from this extensive, self-disclosed dataset, we demonstrate that simple probabilistic models, such as Naive Bayes, outperform more complex embedding-based alternatives. Our approach improves classification performance over the state of the art by up to 19% in ROC AUC and maintains quantification error below 15%. The models produce well-calibrated and interpretable outputs, enabling uncertainty estimation and subreddit-level feature importance analysis. More broadly, this work advocates for a shift toward more ethical and transparent computational social science by grounding sociodemographic analysis in user-provided data rather than researcher assumptions.
- Abstract(参考訳): オンラインプラットフォームの社会デマグラフィー構成を理解することは、デジタル行動とその社会的意味を正確に解釈するために不可欠である。
しかし、現在の手法では、透明性と信頼性が欠如しており、社会的アイデンティティを誤って表現し、デジタル社会の理解を歪めてしまうリスクがある。
ここでは、年齢、性別、パルチザン関係の85万以上のユーザの自己宣言を活用する、Reddit上での社会デマログラフ推論の原則的枠組みを紹介する。
この広範かつ自己開示されたデータセットから、スパースなユーザアクティビティ信号のモデルをトレーニングすることにより、ネイブベイズのような単純な確率モデルの方が、より複雑な埋め込みベースの代替よりも優れていることを実証する。
提案手法は,ROC AUCにおける最先端技術に対する分類性能を最大19%向上させ,15%未満の定量化誤差を維持する。
モデルはよく校正され解釈可能な出力を生成し、不確実性推定とサブレディットレベルの特徴重要度分析を可能にする。
より広範に、この研究は、研究者の仮定よりもむしろユーザが提供するデータに社会デマログラフィー分析を基礎として、より倫理的で透明な社会科学へのシフトを提唱している。
関連論文リスト
- Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - Using Imperfect Surrogates for Downstream Inference: Design-based
Supervised Learning for Social Science Applications of Large Language Models [0.2812395851874055]
計算社会科学 (CSS) は、社会的・政治的現象を説明するために文書を分析する。
文書を安価に大規模にアノテートする一般的な方法の1つは、大きな言語モデルによるものである。
本稿では,下流統計解析に不完全アノテーションサロゲートを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T19:49:41Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - A soft nearest-neighbor framework for continual semi-supervised learning [35.957577587090604]
本稿では,全てのデータサンプルがラベル付けされていない連続的半教師付き学習手法を提案する。
我々は、最も近い隣人の力を利用して、特徴空間を非線形に分割し、基礎となるデータ分布を柔軟にモデル化する。
提案手法は,低解像度画像と高解像度画像の両方で良好に動作し,より複雑なデータセットにシームレスにスケールする。
論文 参考訳(メタデータ) (2022-12-09T20:03:59Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - SimPLE: Similar Pseudo Label Exploitation for Semi-Supervised
Classification [24.386165255835063]
一般的な分類タスクの状況は、トレーニングに利用可能な大量のデータを持っているが、クラスラベルを持つのはごく一部である。
この文脈で、半監督トレーニングの目標は、大量のラベルのないデータからの情報を利用して分類精度を向上させることです。
本研究では,相互に類似した高信頼度ラベル付きデータ間の研究の少ない関係に焦点をあてた,教師なしの新たな目的を提案する。
提案したSimPLEアルゴリズムは,CIFAR-100およびMini-ImageNetにおける従来のアルゴリズムと比較して有意な性能向上を示した。
論文 参考訳(メタデータ) (2021-03-30T23:48:06Z) - Automatic Face Understanding: Recognizing Families in Photos [6.131589026706621]
親族認識のための最大のデータベースを構築します。
ビデオダイナミックス、オーディオ、テキストキャプションは、親族認識システムの意思決定に使用することができる。
論文 参考訳(メタデータ) (2021-01-10T22:37:25Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。