論文の概要: Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations
- arxiv url: http://arxiv.org/abs/2502.07068v2
- Date: Wed, 19 Feb 2025 15:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:32.061032
- Title: Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations
- Title(参考訳): グローバル人口に対する調査応答分布をシミュレートする大規模言語モデルの構築
- Authors: Yong Cao, Haijiang Liu, Arnav Arora, Isabelle Augenstein, Paul Röttger, Daniel Hershcovich,
- Abstract要約: 我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
- 参考スコア(独自算出の注目度): 49.908708778200115
- License:
- Abstract: Large-scale surveys are essential tools for informing social science research and policy, but running surveys is costly and time-intensive. If we could accurately simulate group-level survey results, this would therefore be very valuable to social science research. Prior work has explored the use of large language models (LLMs) for simulating human behaviors, mostly through prompting. In this paper, we are the first to specialize LLMs for the task of simulating survey response distributions. As a testbed, we use country-level results from two global cultural surveys. We devise a fine-tuning method based on first-token probabilities to minimize divergence between predicted and actual response distributions for a given question. Then, we show that this method substantially outperforms other methods and zero-shot classifiers, even on unseen questions, countries, and a completely unseen survey. While even our best models struggle with the task, especially on unseen questions, our results demonstrate the benefits of specialization for simulation, which may accelerate progress towards sufficiently accurate simulation in the future.
- Abstract(参考訳): 大規模調査は社会科学の研究や政策を伝える上で不可欠なツールであるが、調査の実施には費用がかかり、時間を要する。
グループレベルの調査結果を正確にシミュレートできれば、社会科学研究にとって非常に価値があるだろう。
以前の研究は、大きな言語モデル(LLM)を使用して人間の振る舞いをシミュレートすることを探究してきた。
本稿では,調査応答分布のシミュレートを行うためのLSMを初めて専門化する。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
本研究では,ある質問に対する予測応答分布と実際の応答分布のばらつきを最小限に抑えるための,ファースト・ツーケン確率に基づく微調整手法を提案する。
そこで,本手法は,未確認の質問や国,全く見当たらない調査においても,他の手法やゼロショット分類器を著しく上回っていることを示す。
我々の最良モデルでさえ、特に目に見えない問題において、この課題に苦しむ一方で、我々の結果はシミュレーションの特殊化の利点を示しており、将来的には十分に正確なシミュレーションへと進む可能性がある。
関連論文リスト
- GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。
特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文 参考訳(メタデータ) (2024-03-29T15:58:46Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - A step towards the integration of machine learning and small area
estimation [0.0]
本稿では,機械学習アルゴリズムがサポートする予測器を提案する。
仮定モデルからわずかに逸脱しただけで、この場合も提案が良い代替手段であることを示す。
さらに,機械学習予測器の精度推定手法を提案し,従来の手法との比較を行った。
論文 参考訳(メタデータ) (2024-02-12T09:43:17Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Questioning the Survey Responses of Large Language Models [25.14481433176348]
我々は,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイに基づいて,この方法論を批判的に検討する。
まず、モデルの応答は、例えば"A"という文字でラベル付けされた調査応答に対するバイアスの順序付けとラベル付けによって制御される。
第二に、ランダム化された回答順序付けによってこれらの体系的バイアスを調整するとき、ボード全体のモデルが一様ランダムなアンケート応答に向かう傾向にある。
論文 参考訳(メタデータ) (2023-06-13T17:48:27Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Predicting Survey Response with Quotation-based Modeling: A Case Study
on Favorability towards the United States [0.0]
そこで我々は,機械学習を用いて探索応答を推定する先駆的手法を提案する。
我々は、さまざまな国籍の個人から引用された膨大なコーパスを活用して、彼らの好意のレベルを抽出する。
自然言語処理技術と機械学習アルゴリズムを組み合わせて,質問応答の予測モデルを構築した。
論文 参考訳(メタデータ) (2023-05-23T14:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。