論文の概要: AlignSurvey: A Comprehensive Benchmark for Human Preferences Alignment in Social Surveys
- arxiv url: http://arxiv.org/abs/2511.07871v2
- Date: Fri, 14 Nov 2025 01:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.533444
- Title: AlignSurvey: A Comprehensive Benchmark for Human Preferences Alignment in Social Surveys
- Title(参考訳): AlignSurvey: 社会調査における人間選好アライメントの総合ベンチマーク
- Authors: Chenxi Lin, Weikang Yuan, Zhuoren Jiang, Biao Huang, Ruitao Zhang, Jianan Ge, Yueqian Xu, Jianxing Yu,
- Abstract要約: 私たちはAlignSurveyを紹介します。AlignSurveyは、社会調査パイプライン全体を体系的に複製し、評価する最初のベンチマークです。
ソーシャル・ロール・モデリング、半構造化インタビュー・モデリング、態度・モデリング、アンケート・レスポンス・モデリングの4つの主要な調査段階に沿ったタスクを定義している。
また、個別レベルとグループレベルのアライメントの正確性、一貫性、公平性を評価するために、タスク固有の評価指標も提供します。
- 参考スコア(独自算出の注目度): 14.699937408707356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human attitudes, preferences, and behaviors through social surveys is essential for academic research and policymaking. Yet traditional surveys face persistent challenges, including fixed-question formats, high costs, limited adaptability, and difficulties ensuring cross-cultural equivalence. While recent studies explore large language models (LLMs) to simulate survey responses, most are limited to structured questions, overlook the entire survey process, and risks under-representing marginalized groups due to training data biases. We introduce AlignSurvey, the first benchmark that systematically replicates and evaluates the full social survey pipeline using LLMs. It defines four tasks aligned with key survey stages: social role modeling, semi-structured interview modeling, attitude stance modeling and survey response modeling. It also provides task-specific evaluation metrics to assess alignment fidelity, consistency, and fairness at both individual and group levels, with a focus on demographic diversity. To support AlignSurvey, we construct a multi-tiered dataset architecture: (i) the Social Foundation Corpus, a cross-national resource with 44K+ interview dialogues and 400K+ structured survey records; and (ii) a suite of Entire-Pipeline Survey Datasets, including the expert-annotated AlignSurvey-Expert (ASE) and two nationally representative surveys for cross-cultural evaluation. We release the SurveyLM family, obtained through two-stage fine-tuning of open-source LLMs, and offer reference models for evaluating domain-specific alignment. All datasets, models, and tools are available at github and huggingface to support transparent and socially responsible research.
- Abstract(参考訳): 社会調査を通じて人の態度、好み、行動を理解することは、学術研究や政策立案に不可欠である。
しかし、従来の調査では、固定的な調査形式、高いコスト、適応可能性の制限、異文化間の等価性の確保など、永続的な課題に直面している。
近年の研究では、大規模言語モデル(LLM)による調査回答のシミュレートが検討されているが、そのほとんどは構造化された質問に限られており、調査プロセス全体を見落としている。
LLMを用いた完全なソーシャルサーベイパイプラインを体系的に複製し評価する最初のベンチマークであるAlignSurveyを紹介する。
それは、社会的役割モデリング、半構造化インタビューモデリング、態度モデリング、調査応答モデリングの4つの主要な調査段階に沿ったタスクを定義する。
また、個人レベルとグループレベルでアライメントの忠実度、一貫性、公平性を評価するためのタスク固有の評価指標も提供し、人口統計の多様性に重点を置いている。
AlignSurveyをサポートするために、マルチ層データセットアーキテクチャを構築します。
一 社会財団法人 44K以上のインタビュー対話及び400K以上の構造化調査記録を有する国家間資源
(ii) 専門家注釈AlignSurvey-Expert (ASE) と全国的に代表される2つのクロスカルチャー評価調査を含む,エンチア・ピペリン調査データセットのスイート。
オープンソースLLMの2段階微調整により得られたSurveyLMファミリを公開し、ドメイン固有のアライメントを評価するための参照モデルを提供する。
すべてのデータセット、モデル、ツールがgithubとuggingfaceで利用可能で、透明で社会的に責任のある研究をサポートする。
関連論文リスト
- SocioBench: Modeling Human Behavior in Sociological Surveys with Large Language Models [32.66051406264919]
大規模言語モデル(LLM)は、人間の社会的行動や相互作用をシミュレートする強力な可能性を示すが、実際の社会的態度との整合性を評価するための大規模で体系的なベンチマークは欠如している。
国際社会調査プログラム(ISSP)の年次収集標準化調査データから得られた総合的なベンチマークであるSocioBenchを紹介する。
このベンチマークは、30カ国以上から480,000件以上の実応答記録を収集し、10の社会学的ドメインと40以上の人口統計特性にまたがっている。
論文 参考訳(メタデータ) (2025-10-13T08:22:20Z) - Prompts to Proxies: Emulating Human Preferences via a Compact LLM Ensemble [46.82793004650415]
大規模言語モデル(LLM)は、様々なタスクにまたがる人間のような応答をエミュレートする可能性を実証している。
本研究では,LLMをエージェントプロキシとして扱う新しいアライメントフレームワークを提案する。
我々は、構造化されたプロンプトエンジニアリング、エントロピーに基づくサンプリング、回帰に基づく選択を用いて、LLMエージェントを代表的行動パターンに向けて操るシステムであるP2Pを紹介する。
論文 参考訳(メタデータ) (2025-09-14T15:08:45Z) - Large Language Models as Virtual Survey Respondents: Evaluating Sociodemographic Response Generation [18.225151370273093]
本稿では,Large Language Models (LLMs) を用いた仮想調査回答者のシミュレーションを行う。
部分属性シミュレーション(PAS)と完全属性シミュレーション(FAS)の2つの新しいシミュレーション設定を導入する。
LLM-S3 (Large Language Model-based Sociodemography Simulation Survey) は4つの社会学領域にまたがる11の現実世界の公開データセットにまたがる総合ベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-08T04:59:00Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。