論文の概要: Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys
- arxiv url: http://arxiv.org/abs/2405.19323v2
- Date: Mon, 21 Oct 2024 17:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:23.642686
- Title: Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys
- Title(参考訳): 大規模言語モデルはカメレオンか? : 社会調査をシミュレートする試み
- Authors: Mingmeng Geng, Sihong He, Roberto Trotta,
- Abstract要約: 大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
- 参考スコア(独自算出の注目度): 1.5727456947901746
- License:
- Abstract: Can large language models (LLMs) simulate social surveys? To answer this question, we conducted millions of simulations in which LLMs were asked to answer subjective questions. A comparison of different LLM responses with the European Social Survey (ESS) data suggests that the effect of prompts on bias and variability is fundamental, highlighting major cultural, age, and gender biases. We further discussed statistical methods for measuring the difference between LLM answers and survey data and proposed a novel measure inspired by Jaccard similarity, as LLM-generated responses are likely to have a smaller variance. Our experiments also reveal that it is important to analyze the robustness and variability of prompts before using LLMs to simulate social surveys, as their imitation abilities are approximate at best.
- Abstract(参考訳): 大規模言語モデル(LLM)は社会調査をシミュレートできるか?
この問題に答えるために,LLMに主観的な質問に対する回答を依頼するシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLCM反応の比較は、プロンプトがバイアスと可変性に与える影響が基本であり、文化的、年齢的、性別的バイアスが強調されていることを示唆している。
さらに, LLM の回答と調査データの違いを測定する統計的手法について検討し, LLM 生成応答のばらつきが小さいため, Jaccard の類似性に着想を得た新しい尺度を提案した。
また, LLMを用いて社会調査をシミュレートするためには, プロンプトのロバスト性や変動性を解析することが重要であることも明らかにした。
関連論文リスト
- Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。
近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。
このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。
本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文 参考訳(メタデータ) (2024-09-06T12:42:35Z) - Are Social Sentiments Inherent in LLMs? An Empirical Study on Extraction of Inter-demographic Sentiments [14.143299702954023]
本研究は、国籍、宗教、人種・民族の観点で定義された社会集団に焦点を当てる。
我々は、あるグループから別のグループへの感情に関する質問をLSMに入力し、反応に感情分析を適用し、その結果を社会調査と比較する。
論文 参考訳(メタデータ) (2024-08-08T08:13:25Z) - Social Bias Evaluation for Large Language Models Requires Prompt Variations [38.91306092184724]
大規模言語モデル(LLM)は、かなりの社会的偏見を示す。
本稿では,高速変動変化におけるLDMの感度について検討する。
LLMは、そのプロンプトによって引き起こされる社会的偏見と性能のトレードオフがあることが示される。
論文 参考訳(メタデータ) (2024-07-03T14:12:04Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。