Fugu-MT 論文翻訳(概要): Exploring Social Desirability Response Bias in Large Language Models: Evidence from GPT-4 Simulations

論文の概要: Exploring Social Desirability Response Bias in Large Language Models: Evidence from GPT-4 Simulations

arxiv url: http://arxiv.org/abs/2410.15442v1
Date: Sun, 20 Oct 2024 16:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.105731
Title: Exploring Social Desirability Response Bias in Large Language Models: Evidence from GPT-4 Simulations
Title（参考訳）: 大規模言語モデルにおける社会的望ましくない応答バイアスの探索:GPT-4シミュレーションによる証拠
Authors: Sanguk Lee, Kai-Qi Yang, Tai-Quan Peng, Ruth Heo, Hui Liu,
Abstract要約: 大規模言語モデル(LLM)は、社会調査において人間のような反応をシミュレートするために用いられる。社会的望ましくない反応(SDR)バイアスのようなバイアスを生じているかどうかはまだ不明である。この研究は、LLMを使って人間とLLMの双方の偏見を調査する潜在的な道筋を強調している。
参考スコア（独自算出の注目度）: 4.172974580485295
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) are employed to simulate human-like responses in social surveys, yet it remains unclear if they develop biases like social desirability response (SDR) bias. To investigate this, GPT-4 was assigned personas from four societies, using data from the 2022 Gallup World Poll. These synthetic samples were then prompted with or without a commitment statement intended to induce SDR. The results were mixed. While the commitment statement increased SDR index scores, suggesting SDR bias, it reduced civic engagement scores, indicating an opposite trend. Additional findings revealed demographic associations with SDR scores and showed that the commitment statement had limited impact on GPT-4's predictive performance. The study underscores potential avenues for using LLMs to investigate biases in both humans and LLMs themselves.
Abstract（参考訳）: 大規模言語モデル(LLM)は、社会調査において人間のような反応をシミュレートするために使用されるが、社会的望ましくない反応(SDR)バイアスのようなバイアスを生じているかどうかは不明だ。この調査のために、GPT-4は、2022年のギャラップ・ワールド・ポールのデータを用いて、4つの社会からペルソナを割り当てられた。これらの合成サンプルは、SDRを誘導するコミットメントステートメントによって誘導される。結果はまちまちだった。コミットメントステートメントはSDR指数のスコアを増大させ、SDRバイアスを示唆する一方で、市民のエンゲージメントスコアを減少させ、反対の傾向を示した。以上の結果から,SDRスコアと人口統計学的関連が明らかとなり,GPT-4の予測性能に限定的な影響が認められた。この研究は、LLMを使用して人間とLLMの双方の偏見を調査する潜在的な方法を強調している。

関連論文リスト

Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare [7.075750841525739]
大きな言語モデル(LLM)によって駆動されるシリコの人間の振る舞いをシミュレートするために、生成剤がますます使われてきた本研究は、医療意思決定に関する理解アメリカ研究(UAS)の調査データと、生成エージェントからのシミュレーション応答を比較した。人口統計に基づくプロンプトエンジニアリングを用いて、調査回答者のデジタルツインを作成し、異なるLLMが現実世界の振る舞いをいかにうまく再現するかを分析する。
論文参考訳（メタデータ） (2025-04-11T05:11:40Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
ChatGPT vs Social Surveys: Probing the Objective and Subjective Human Society [7.281887764378982]
我々はChatGPT-3.5を用いてサンプリングプロセスをシミュレートし、2020年の米国人口から6つの社会経済特性を生んだ。我々は、GPTの主観的態度を探るため、所得格差やジェンダーの役割に関する質問に対する回答を分析した。以上の結果から、性別と年齢の一致は、2020年のアメリカにおける実際の人口と一致しているが、人種や教育団体の分布にミスマッチがあることが判明した。
論文参考訳（メタデータ） (2024-09-04T10:33:37Z)
Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion [45.84205238554709]
我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。我々は,LSM GPT-3.5に対して,各回答者の投票選択を予測し,これらの予測を調査に基づく推定と比較する。 GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。
論文参考訳（メタデータ） (2024-07-11T14:52:18Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
Evaluating LLMs for Gender Disparities in Notable Persons [0.40964539027092906]
本研究では,事実情報の検索にLarge Language Models (LLMs) を用いることを検討した。事実的不正確な「ハロゲン化」反応を作り出すことや、全く答えることができないことへの懸念に対処する。
論文参考訳（メタデータ） (2024-03-14T07:58:27Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文参考訳（メタデータ） (2023-11-08T18:52:17Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文参考訳（メタデータ） (2023-08-23T14:18:44Z)
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文参考訳（メタデータ） (2022-10-18T17:58:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。