論文の概要: Artificial Intelligence in Psychology Research
- arxiv url: http://arxiv.org/abs/2302.07267v1
- Date: Mon, 13 Feb 2023 17:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:46:20.000283
- Title: Artificial Intelligence in Psychology Research
- Title(参考訳): 心理学研究における人工知能
- Authors: Peter S. Park, Philipp Schoenegger and Chongyang Zhu
- Abstract要約: 大規模言語モデルは機能的に大きく成長しています。
このようなAIシステムの潜在的な応用の1つは、社会科学におけるデータ収集をサポートすることである。
GP3.5をベースとしたサンプルは, 元の結果の30%, Many 2の結果の30%を再現することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have vastly grown in capabilities. One potential
application of such AI systems is to support data collection in the social
sciences, where perfect experimental control is currently unfeasible and the
collection of large, representative datasets is generally expensive. In this
paper, we re-replicate 14 studies from the Many Labs 2 replication project
(Klein et al., 2018) with OpenAI's text-davinci-003 model, colloquially known
as GPT3.5. For the 10 studies that we could analyse, we collected a total of
10,136 responses, each of which was obtained by running GPT3.5 with the
corresponding study's survey inputted as text. We find that our GPT3.5-based
sample replicates 30% of the original results as well as 30% of the Many Labs 2
results, although there is heterogeneity in both these numbers (as we replicate
some original findings that Many Labs 2 did not and vice versa). We also find
that unlike the corresponding human subjects, GPT3.5 answered some survey
questions with extreme homogeneity$\unicode{x2013}$with zero variation in
different runs' responses$\unicode{x2013}$raising concerns that a hypothetical
AI-led future may in certain ways be subject to a diminished diversity of
thought. Overall, while our results suggest that Large Language Model
psychology studies are feasible, their findings should not be assumed to
straightforwardly generalise to the human case. Nevertheless, AI-based data
collection may eventually become a viable and economically relevant method in
the empirical social sciences, making the understanding of its capabilities and
applications central.
- Abstract(参考訳): 大規模言語モデルは機能的に大きく成長した。
このようなAIシステムの潜在的な応用の1つは、完全な実験的制御が現在不可能であり、大規模な代表的データセットの収集が一般的に高価である社会科学におけるデータ収集をサポートすることである。
本稿では, OpenAI の Text-davinci-003 モデルである GPT3.5 を用いて, Many Labs 2 複製プロジェクト (Klein et al., 2018) の14 つの研究を再現した。
分析可能な10の研究では、合計10,136の回答を収集し、それぞれがgpt3.5を実行し、それぞれをテキストとして入力した。
GPT3.5ベースのサンプルは、Multi Labs 2の結果の30%と、Multi Labs 2の結果の30%を複製しています。
また、対応する人間と異なり、gpt3.5は、極端な均質性を持ついくつかの調査質問に対して、異なるランの応答の変動がゼロであるなら、仮説上のai主導の未来は、ある方法では思考の多様性が減少する可能性があるという懸念に対して答えている。
本研究の結果は,大規模言語モデル心理学研究が実現可能であることを示唆するものであるが,人間の場合に直接一般化するものではない。
それでも、AIベースのデータ収集は、最終的には経験的社会科学において実現可能で経済的に関係のある方法となり、その能力と応用を中心的に理解する。
関連論文リスト
- Political Compass or Spinning Arrow? Towards More Meaningful Evaluations
for Values and Opinions in Large Language Models [32.02697384213719]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Behind the Screen: Investigating ChatGPT's Dark Personality Traits and
Conspiracy Beliefs [0.0]
本稿では, GPT-3.5 と GPT-4 の暗黒性格特性と陰謀信念を分析した。
ダークパーソナリティの特徴と陰謀の信念はどちらのモデルでも特に強調されなかった。
論文 参考訳(メタデータ) (2024-02-06T16:03:57Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Does GPT-4 Pass the Turing Test? [5.076419064097735]
最も優れたGPT-4プロンプトは、ELIZA(27%)とGPT-3.5(14%)で設定されたベースラインを上回る41%のゲームでパスした。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文 参考訳(メタデータ) (2023-10-31T06:27:52Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - The Self-Perception and Political Biases of ChatGPT [0.0]
この貢献はOpenAIのLarge Language Model ChatGPTの自己認識と政治的偏見を分析している。
コンパステストは進歩主義とリバタリアンの見解に対する偏見を浮き彫りにした。
G7加盟国の政治調査では進歩的見解に対する偏見を示したが、権威主義とリバタリアンの見解の間に有意な偏見はなかった。
論文 参考訳(メタデータ) (2023-04-14T18:06:13Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。