論文の概要: Prompt Perturbations Reveal Human-Like Biases in LLM Survey Responses
- arxiv url: http://arxiv.org/abs/2507.07188v1
- Date: Wed, 09 Jul 2025 18:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.163321
- Title: Prompt Perturbations Reveal Human-Like Biases in LLM Survey Responses
- Title(参考訳): LLMサーベイ応答におけるヒト様ビアーゼのプロンプト摂動
- Authors: Jens Rupprecht, Georg Ahnert, Markus Strohmaier,
- Abstract要約: 大規模言語モデルは、社会科学調査において、人間の被験者のプロキシとしてますます使われている。
本稿では,標準調査文脈におけるLCMの応答ロバスト性について検討する。
- 参考スコア(独自算出の注目度): 1.7170969275523118
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as proxies for human subjects in social science surveys, but their reliability and susceptibility to known response biases are poorly understood. This paper investigates the response robustness of LLMs in normative survey contexts -- we test nine diverse LLMs on questions from the World Values Survey (WVS), applying a comprehensive set of 11 perturbations to both question phrasing and answer option structure, resulting in over 167,000 simulated interviews. In doing so, we not only reveal LLMs' vulnerabilities to perturbations but also reveal that all tested models exhibit a consistent \textit{recency bias} varying in intensity, disproportionately favoring the last-presented answer option. While larger models are generally more robust, all models remain sensitive to semantic variations like paraphrasing and to combined perturbations. By applying a set of perturbations, we reveal that LLMs partially align with survey response biases identified in humans. This underscores the critical importance of prompt design and robustness testing when using LLMs to generate synthetic survey data.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 社会科学調査において, 被験者のプロキシとしてますます利用されているが, 既知の応答バイアスに対する信頼性と感受性はよく分かっていない。
本稿では, 規範的調査文脈におけるLLMの応答堅牢性について検討し, 世界価値調査(WVS)の質問に対して9種類のLCMを検証し, 質問文と回答オプション構造の両方に11の摂動を包括的に適用し, 167,000件以上の模擬面接を行った。
その際、摂動に対するLSMの脆弱性を明らかにするだけでなく、全ての試験されたモデルが強度の異なる一貫した \textit{recency bias} を示し、最後に提示された答えオプションを不当に好んでいることも明らかにする。
より大きなモデルは一般により堅牢であるが、全てのモデルはパラフレージングや複合摂動のような意味的なバリエーションに敏感である。
摂動を施すことにより,LLMは人体で同定された調査応答バイアスと部分的に一致していることが明らかとなった。
このことは、LLMを用いて総合的なサーベイデータを生成する際に、迅速な設計とロバストネステストの重要性を浮き彫りにしている。
関連論文リスト
- A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。