論文の概要: SocioBench: Modeling Human Behavior in Sociological Surveys with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.11131v1
- Date: Mon, 13 Oct 2025 08:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.26384
- Title: SocioBench: Modeling Human Behavior in Sociological Surveys with Large Language Models
- Title(参考訳): SocioBench: 大規模言語モデルを用いた社会学的調査における人間の振る舞いのモデル化
- Authors: Jia Wang, Ziyu Zhao, Tingjuntao Ni, Zhongyu Wei,
- Abstract要約: 大規模言語モデル(LLM)は、人間の社会的行動や相互作用をシミュレートする強力な可能性を示すが、実際の社会的態度との整合性を評価するための大規模で体系的なベンチマークは欠如している。
国際社会調査プログラム(ISSP)の年次収集標準化調査データから得られた総合的なベンチマークであるSocioBenchを紹介する。
このベンチマークは、30カ国以上から480,000件以上の実応答記録を収集し、10の社会学的ドメインと40以上の人口統計特性にまたがっている。
- 参考スコア(独自算出の注目度): 32.66051406264919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show strong potential for simulating human social behaviors and interactions, yet lack large-scale, systematically constructed benchmarks for evaluating their alignment with real-world social attitudes. To bridge this gap, we introduce SocioBench-a comprehensive benchmark derived from the annually collected, standardized survey data of the International Social Survey Programme (ISSP). The benchmark aggregates over 480,000 real respondent records from more than 30 countries, spanning 10 sociological domains and over 40 demographic attributes. Our experiments indicate that LLMs achieve only 30-40% accuracy when simulating individuals in complex survey scenarios, with statistically significant differences across domains and demographic subgroups. These findings highlight several limitations of current LLMs in survey scenarios, including insufficient individual-level data coverage, inadequate scenario diversity, and missing group-level modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の社会的行動や相互作用をシミュレートする強力な可能性を示すが、実際の社会的態度との整合性を評価するための大規模で体系的なベンチマークは欠如している。
このギャップを埋めるため,国際社会調査プログラム(ISSP)の年次調査データから得られた総合的なベンチマークであるSocioBenchを紹介する。
このベンチマークは、30カ国以上から480,000件以上の実応答記録を収集し、10の社会学的ドメインと40以上の人口統計特性にまたがっている。
複雑な調査シナリオで個人をシミュレーションする場合, LLMは30~40%の精度しか得られず, ドメインと人口集団間で統計的に有意な差がみられた。
これらの結果は、個々のレベルのデータカバレッジの不足、不適切なシナリオの多様性、グループレベルのモデリングの欠如など、調査シナリオにおける現在のLLMのいくつかの制限を浮き彫りにしている。
関連論文リスト
- Population-Aligned Persona Generation for LLM-based Social Simulation [58.84363795421489]
本稿では,社会シミュレーションのための高品質な集団対応ペルソナ集合を合成するための体系的枠組みを提案する。
我々のアプローチは、長期のソーシャルメディアデータから物語的ペルソナを生成するために、大きな言語モデルを活用することから始まる。
特定のシミュレーションコンテキストのニーズに対処するために,対象のサブポピュレーションに対してグローバルに整合したペルソナを適応させるタスク固有モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-12T10:43:47Z) - Large Language Models as Virtual Survey Respondents: Evaluating Sociodemographic Response Generation [18.225151370273093]
本稿では,Large Language Models (LLMs) を用いた仮想調査回答者のシミュレーションを行う。
部分属性シミュレーション(PAS)と完全属性シミュレーション(FAS)の2つの新しいシミュレーション設定を導入する。
LLM-S3 (Large Language Model-based Sociodemography Simulation Survey) は4つの社会学領域にまたがる11の現実世界の公開データセットにまたがる総合ベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-08T04:59:00Z) - Ireland in 2057: Projections using a Geographically Diverse Dynamic Microsimulation [4.230271396864462]
このモデルは、出生、死亡、国内移住、国際移住の4つの主要な出来事を捉えている。
シミュレーションの個々の個人は、年齢、性別、結婚状態、最高レベルの教育、経済的地位の5つの基本属性によって定義される。
論文 参考訳(メタデータ) (2025-09-01T13:03:03Z) - MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework [53.82097200295448]
MF-LLM(Mean-Field LLM)は,まず平均場理論を社会シミュレーションに取り入れる。
MF-LLMは反復過程を通じて個人と人口間の双方向相互作用をモデル化する。
IB-Tuneは、Information Bottleneckの原理にインスパイアされた、新しい微調整手法である。
論文 参考訳(メタデータ) (2025-04-30T12:41:51Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - ChatGPT vs Social Surveys: Probing Objective and Subjective Silicon Population [7.281887764378982]
大規模言語モデル(LLM)は、社会調査における人間の反応をシミュレートし、信頼できる予測を生成する可能性を秘めている。
GPTにより生成したシリコン試料の集団パラメータを同定するサンプリング分布を生成するために,繰り返しサンプリングを用いる。
以上の結果から、GPTの人口分布は、性別と平均年齢の点で、2020年の米国人口と一致していることがわかった。
GPTの立位スコアの点推定は極めて矛盾しており、特定のイデオロギーに対する明確な傾きを示していない。
論文 参考訳(メタデータ) (2024-09-04T10:33:37Z) - Social Debiasing for Fair Multi-modal LLMs [59.61512883471714]
MLLM(Multi-modal Large Language Models)は、研究分野を劇的に進歩させ、強力な視覚言語理解機能を提供する。
これらのモデルは、しばしば訓練データから根深い社会的偏見を継承し、人種や性別などの属性に対する不快な反応をもたらす。
本稿では,MLLMにおける社会的バイアスの問題を,複数の社会的概念を持つ包括的対実的データセットを導入することで解決する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。