論文の概要: Can Large Language Models Capture Public Opinion about Global Warming?
An Empirical Assessment of Algorithmic Fidelity and Bias
- arxiv url: http://arxiv.org/abs/2311.00217v2
- Date: Thu, 8 Feb 2024 03:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:59:50.258031
- Title: Can Large Language Models Capture Public Opinion about Global Warming?
An Empirical Assessment of Algorithmic Fidelity and Bias
- Title(参考訳): 大規模言語モデルは地球温暖化に関する世論を捉えることができるか?
アルゴリズム的忠実性とバイアスの実証評価
- Authors: S. Lee, T. Q. Peng, M. H. Goldberg, S. A. Rosenthal, J. E. Kotcher, E.
W. Maibach and A. Leiserowitz
- Abstract要約: 大規模言語モデル(LLM)は、人間の知覚や行動をエミュレートすることで、社会科学研究においてその可能性を実証している。
本研究は,LLMのアルゴリズム的忠実度と偏りを,全国的に代表される2つの気候変動調査を用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated their potential in social
science research by emulating human perceptions and behaviors, a concept
referred to as algorithmic fidelity. This study assesses the algorithmic
fidelity and bias of LLMs by utilizing two nationally representative climate
change surveys. The LLMs were conditioned on demographics and/or psychological
covariates to simulate survey responses. The findings indicate that LLMs can
effectively capture presidential voting behaviors but encounter challenges in
accurately representing global warming perspectives when relevant covariates
are not included. GPT-4 exhibits improved performance when conditioned on both
demographics and covariates. However, disparities emerge in LLM estimations of
the views of certain groups, with LLMs tending to underestimate worry about
global warming among Black Americans. While highlighting the potential of LLMs
to aid social science research, these results underscore the importance of
meticulous conditioning, model selection, survey question format, and bias
assessment when employing LLMs for survey simulation. Further investigation
into prompt engineering and algorithm auditing is essential to harness the
power of LLMs while addressing their inherent limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の知覚と行動をエミュレートすることで、社会科学研究におけるその可能性を実証している。
本研究は,LLMのアルゴリズム的忠実度と偏りを,全国的に代表される2つの気候変動調査を用いて評価する。
LLMは、調査回答をシミュレートするために、人口統計学および/または心理学的共変量に設定された。
以上の結果から,LLMは大統領投票の行動を効果的に捉えることができるが,関連変数を含まない場合の温暖化の観点を正確に表現する上での課題に直面することが示唆された。
GPT-4は、個体群と共変量の両方で条件付きで性能が向上する。
しかし、特定のグループの見解をLLMで見積もる場合、LLMは黒人の地球温暖化に対する懸念を過小評価する傾向にある。
社会科学研究を支援するLLMの可能性を強調しながら, これらの結果は, 厳密な条件付け, モデル選択, 調査質問形式, 調査シミュレーションにLLMを用いた場合のバイアス評価の重要性を浮き彫りにした。
工学とアルゴリズム監査のさらなる研究は、LLMの能力を活用しながら、その固有の限界に対処するために不可欠である。
関連論文リスト
- Wait, It's All Token Noise? Always Has Been: Interpreting LLM Behavior Using Shapley Value [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [62.954890888281206]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Navigating the Ocean of Biases: Political Bias Attribution in Language
Models via Causal Structures [58.059631072902356]
我々は、LLMの価値観を批判したり、検証したりせず、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
本研究では,活動依存ネットワーク(ADN)を用いてLCMの暗黙的基準を抽出する。
人-AIアライメントとバイアス緩和について,本研究の結果について考察した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations [61.9212914612875]
本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-10-17T18:00:25Z) - Assessing Large Language Models on Climate Information [5.224074944044795]
本稿では,科学コミュニケーションの原則を基礎として,大規模言語モデル解析のための総合的な評価フレームワークを提案する。
我々のフレームワークは、LLM世代を詳細に分析する上で、提示と回答の妥当性の両方を強調している。
このタスクは、AIが人間のパフォーマンスを補完し、引き上げることのできる、ますます困難な問題の実例だ。
論文 参考訳(メタデータ) (2023-10-04T16:09:48Z) - Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity [1.7947441434255664]
大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-09-06T15:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。