論文の概要: Web-Browsing LLMs Can Access Social Media Profiles and Infer User Demographics
- arxiv url: http://arxiv.org/abs/2507.12372v1
- Date: Wed, 16 Jul 2025 16:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.46635
- Title: Web-Browsing LLMs Can Access Social Media Profiles and Infer User Demographics
- Title(参考訳): Web ブラウザ LLM はソーシャルメディアのプロファイルにアクセスし,ユーザデモグラフィックを推論する
- Authors: Meysam Alizadeh, Fabrizio Gilardi, Zeynab Samei, Mohsen Mosleh,
- Abstract要約: 大規模言語モデル(LLM)は伝統的に静的トレーニングデータに依存しており、その知識を固定スナップショットに制限している。
近年のLLMはウェブ閲覧機能を備えており、リアルタイム情報検索やライブウェブコンテンツの多段階推論が可能になっている。
本稿では,ウェブブラウジング LLM がユーザ名のみを付与したソーシャルメディア利用者の人口統計特性を推測できるかどうかを評価する。
これらのモデルがソーシャルメディアのコンテンツにアクセスでき、適切な精度でユーザー人口を予測できることを示す。
- 参考スコア(独自算出の注目度): 7.849709311008473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have traditionally relied on static training data, limiting their knowledge to fixed snapshots. Recent advancements, however, have equipped LLMs with web browsing capabilities, enabling real time information retrieval and multi step reasoning over live web content. While prior studies have demonstrated LLMs ability to access and analyze websites, their capacity to directly retrieve and analyze social media data remains unexplored. Here, we evaluate whether web browsing LLMs can infer demographic attributes of social media users given only their usernames. Using a synthetic dataset of 48 X (Twitter) accounts and a survey dataset of 1,384 international participants, we show that these models can access social media content and predict user demographics with reasonable accuracy. Analysis of the synthetic dataset further reveals how LLMs parse and interpret social media profiles, which may introduce gender and political biases against accounts with minimal activity. While this capability holds promise for computational social science in the post API era, it also raises risks of misuse particularly in information operations and targeted advertising underscoring the need for safeguards. We recommend that LLM providers restrict this capability in public facing applications, while preserving controlled access for verified research purposes.
- Abstract(参考訳): 大規模言語モデル(LLM)は伝統的に静的トレーニングデータに依存しており、その知識を固定スナップショットに制限している。
しかし、近年の進歩はLLMにWeb閲覧機能を備えており、リアルタイム情報検索とライブウェブコンテンツに対するマルチステップ推論を可能にしている。
これまでの研究では、LLMがウェブサイトにアクセスして分析する能力を示してきたが、ソーシャルメディアデータを直接検索し分析する能力は未調査のままである。
本稿では,ウェブブラウジング LLM がユーザ名のみを付与したソーシャルメディア利用者の人口統計特性を推測できるかどうかを評価する。
48アカウントの総合データセットと1,384人の海外参加者による調査データセットを用いて,これらのモデルがソーシャルメディアコンテンツにアクセスし,適切な精度でユーザ人口統計を予測可能であることを示す。
合成データセットの分析は、LLMがソーシャルメディアのプロフィールを解析し解釈する方法をさらに明らかにしている。
この能力は、ポストAPI時代の計算社会科学を約束する一方で、特に情報操作における誤用や、保護の必要性を裏付けるターゲット広告のリスクも高めている。
LLMプロバイダは、検証された研究目的のために制御されたアクセスを保ちながら、パブリックな対面アプリケーションでこの機能を制限することを推奨する。
関連論文リスト
- Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。
最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:29:43Z) - OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation [56.47029531207105]
OPERAは、ユーザペルソナ、ブラウザの観察、きめ細かいWebアクション、そして自己報告されたジャストインタイム論理を包括的にキャプチャする最初のパブリックデータセットである。
我々は,現在のLCMがユーザの次の行動と合理的性をどの程度予測できるかを評価するための最初のベンチマークを確立する。
論文 参考訳(メタデータ) (2025-06-05T21:37:49Z) - From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling [3.304341919932024]
ドメイン定義文を活用する新しい大規模言語モデル(LLM)ベースのアプローチを導入する。
提案手法は,解釈可能な自然言語ユーザプロファイルを生成し,広範囲なユーザデータをスケールに集約する。
実験の結果,本手法は最先端のLCM法および従来手法よりも9.8%優れていた。
論文 参考訳(メタデータ) (2025-05-09T16:51:24Z) - Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Automated Claim Matching with Large Language Models: Empowering
Fact-Checkers in the Fight Against Misinformation [11.323961700172175]
FACT-GPTは、大規模言語モデルを用いたファクトチェックのクレームマッチングフェーズを自動化するために設計されたフレームワークである。
このフレームワークは、ファクトチェッカーによって以前否定された主張を支持したり、否定したりする新しいソーシャルメディアコンテンツを識別する。
FACT-GPTを公衆衛生に関連するソーシャルメディアコンテンツのデータセットとして評価した。
論文 参考訳(メタデータ) (2023-10-13T16:21:07Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。