論文の概要: AI-Augmented Surveys: Leveraging Large Language Models for Opinion
Prediction in Nationally Representative Surveys
- arxiv url: http://arxiv.org/abs/2305.09620v1
- Date: Tue, 16 May 2023 17:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:52:38.441799
- Title: AI-Augmented Surveys: Leveraging Large Language Models for Opinion
Prediction in Nationally Representative Surveys
- Title(参考訳): aiによる調査:全国調査における意見予測のための大規模言語モデル活用
- Authors: Junsol Kim, Byungkyu Lee
- Abstract要約: 本稿では,大言語モデル(LLM)の意見予測への3つの異なる応用について検討する。
本稿では,調査質問,個人の信念,時間的文脈の神経埋め込みを取り入れた新しい方法論の枠組みを提案する。
社会経済的地位の低い人、人種的マイノリティ、非政党的関係の人では、最良のモデルの精度は低いが、イデオロギー的に分類された意見では高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we use large language models (LLMs) to augment surveys? This paper
investigates three distinct applications of LLMs fine-tuned by nationally
representative surveys for opinion prediction -- missing data imputation,
retrodiction, and zero-shot prediction. We present a new methodological
framework that incorporates neural embeddings of survey questions, individual
beliefs, and temporal contexts to personalize LLMs in opinion prediction. Among
3,110 binarized opinions from 68,846 Americans in the General Social Survey
from 1972 to 2021, our best models based on Alpaca-7b excels in missing data
imputation (AUC = 0.87 for personal opinion prediction and $\rho$ = 0.99 for
public opinion prediction) and retrodiction (AUC = 0.86, $\rho$ = 0.98). These
remarkable prediction capabilities allow us to fill in missing trends with high
confidence and pinpoint when public attitudes changed, such as the rising
support for same-sex marriage. However, the models show limited performance in
a zero-shot prediction task (AUC = 0.73, $\rho$ = 0.67), highlighting
challenges presented by LLMs without human responses. Further, we find that the
best models' accuracy is lower for individuals with low socioeconomic status,
racial minorities, and non-partisan affiliations but higher for ideologically
sorted opinions in contemporary periods. We discuss practical constraints,
socio-demographic representation, and ethical concerns regarding individual
autonomy and privacy when using LLMs for opinion prediction. This paper
showcases a new approach for leveraging LLMs to enhance nationally
representative surveys by predicting missing responses and trends.
- Abstract(参考訳): 大規模言語モデル(LLM)を使って調査を拡大するにはどうすればよいのか?
本稿では,全国の代表的調査によって微調整されたllmsの3つの異なる応用について検討する。
本稿では,調査質問,個人的信念,時間的文脈の神経組込みを組み込んだ新しい手法的枠組みを提案し,意見予測におけるllmのパーソナライズを行う。
1972年から2021年までの一般社会調査における68,846人の意見のバイナライズされた3,110の意見のうち、Alpaca-7bに基づく最良のモデルは、欠落データ計算(AUC = 0.87、世論予測は$\rho$ = 0.99)と回帰(AUC = 0.86、$\rho$ = 0.98)に優れています。
こうした顕著な予測能力により、同性結婚への支持の高まりなど、公衆の態度が変わったときに高い信頼感と注意を持てる傾向を満たせることができます。
しかしながら、このモデルではゼロショット予測タスク(AUC = 0.73, $\rho$ = 0.67)のパフォーマンスが制限されており、人間の反応を伴わないLLMが提示する課題を強調している。
さらに, 社会経済的地位の低さ, 人種的マイノリティ, 非党派的関係の個人においては, 最良モデルの正確性は低いが, 現代のイデオロギーに分類された意見では高いことが判明した。
LLMを意見予測に用いた場合、個人の自律性とプライバシに関する実践的制約、社会デコグラフィー表現、倫理的懸念について論じる。
本稿では,LLMを活用して,不足する回答や傾向を予測し,全国的な調査を強化するための新しいアプローチを示す。
関連論文リスト
- Selective "Selective Prediction": Reducing Unnecessary Abstention in
Vision-Language Reasoning [70.74118923797243]
本稿では、予測精度を低下させることなく、選択的な視覚言語システムの過剰保持を低減するための推論時アルゴリズムReCoVERRを紹介する。
ReCoVERRは,システム精度を低下させることなく,バニラ選択予測よりも,A-OKVQAタスクに対して最大20%の質問に回答できる,BLIP2とInstructBLIPの2つのVLMを実現する。
論文 参考訳(メタデータ) (2024-02-23T21:16:52Z) - Are Large Language Models (LLMs) Good Social Predictors? [36.68104332805214]
本研究では,大規模言語モデル (LLM) が,ショートカットを伴わない一般的な入力機能を与えられた場合,社会的予測において期待通りに機能しないことを示す。
本稿では,実世界の社会学習環境の入力とシミュレートに一般的な特徴を利用する新しい社会予測タスクであるSoc-PRF予測を導入する。
論文 参考訳(メタデータ) (2024-02-20T00:59:22Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - From Values to Opinions: Predicting Human Behaviors and Stances Using
Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。
VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。
以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T02:18:10Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - Aligning Language Models to User Opinions [10.953326025836475]
ユーザの意見や人口統計やイデオロギーが相互予測者ではないことが判明した。
ユーザの意見とユーザ人口、イデオロギーの両方をモデル化することで、LCMを整合させる。
人口統計学とイデオロギーを併用したLCMの典型的なアプローチに加えて,個人ユーザからの最も関連性の高い過去の意見を活用すれば,より正確なユーザ意見の予測が可能になることが判明した。
論文 参考訳(メタデータ) (2023-05-24T09:11:11Z) - Predicting Survey Response with Quotation-based Modeling: A Case Study
on Favorability towards the United States [0.0]
そこで我々は,機械学習を用いて探索応答を推定する先駆的手法を提案する。
我々は、さまざまな国籍の個人から引用された膨大なコーパスを活用して、彼らの好意のレベルを抽出する。
自然言語処理技術と機械学習アルゴリズムを組み合わせて,質問応答の予測モデルを構築した。
論文 参考訳(メタデータ) (2023-05-23T14:11:01Z) - Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。
我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。
我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文 参考訳(メタデータ) (2023-03-30T17:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。