Fugu-MT 論文翻訳(概要): Artificial Intelligence in Psychology Research

論文の概要: Artificial Intelligence in Psychology Research

arxiv url: http://arxiv.org/abs/2302.07267v1
Date: Mon, 13 Feb 2023 17:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-16 16:46:20.000283
Title: Artificial Intelligence in Psychology Research
Title（参考訳）: 心理学研究における人工知能
Authors: Peter S. Park, Philipp Schoenegger and Chongyang Zhu
Abstract要約: 大規模言語モデルは機能的に大きく成長しています。このようなAIシステムの潜在的な応用の1つは、社会科学におけるデータ収集をサポートすることである。 GP3.5をベースとしたサンプルは, 元の結果の30%, Many 2の結果の30%を再現することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models have vastly grown in capabilities. One potential application of such AI systems is to support data collection in the social sciences, where perfect experimental control is currently unfeasible and the collection of large, representative datasets is generally expensive. In this paper, we re-replicate 14 studies from the Many Labs 2 replication project (Klein et al., 2018) with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. For the 10 studies that we could analyse, we collected a total of 10,136 responses, each of which was obtained by running GPT3.5 with the corresponding study's survey inputted as text. We find that our GPT3.5-based sample replicates 30% of the original results as well as 30% of the Many Labs 2 results, although there is heterogeneity in both these numbers (as we replicate some original findings that Many Labs 2 did not and vice versa). We also find that unlike the corresponding human subjects, GPT3.5 answered some survey questions with extreme homogeneity$\unicode{x2013}$with zero variation in different runs' responses$\unicode{x2013}$raising concerns that a hypothetical AI-led future may in certain ways be subject to a diminished diversity of thought. Overall, while our results suggest that Large Language Model psychology studies are feasible, their findings should not be assumed to straightforwardly generalise to the human case. Nevertheless, AI-based data collection may eventually become a viable and economically relevant method in the empirical social sciences, making the understanding of its capabilities and applications central.
Abstract（参考訳）: 大規模言語モデルは機能的に大きく成長した。このようなAIシステムの潜在的な応用の1つは、完全な実験的制御が現在不可能であり、大規模な代表的データセットの収集が一般的に高価である社会科学におけるデータ収集をサポートすることである。本稿では, OpenAI の Text-davinci-003 モデルである GPT3.5 を用いて, Many Labs 2 複製プロジェクト (Klein et al., 2018) の14 つの研究を再現した。分析可能な10の研究では、合計10,136の回答を収集し、それぞれがgpt3.5を実行し、それぞれをテキストとして入力した。 GPT3.5ベースのサンプルは、Multi Labs 2の結果の30%と、Multi Labs 2の結果の30%を複製しています。また、対応する人間と異なり、gpt3.5は、極端な均質性を持ついくつかの調査質問に対して、異なるランの応答の変動がゼロであるなら、仮説上のai主導の未来は、ある方法では思考の多様性が減少する可能性があるという懸念に対して答えている。本研究の結果は,大規模言語モデル心理学研究が実現可能であることを示唆するものであるが,人間の場合に直接一般化するものではない。それでも、AIベースのデータ収集は、最終的には経験的社会科学において実現可能で経済的に関係のある方法となり、その能力と応用を中心的に理解する。

関連論文リスト

"Amazing, They All Lean Left" -- Analyzing the Political Temperaments of Current LLMs [5.754220850145368]
私たちはリベラルな価値、特に注意と公平性の強い一貫性のある優先順位付けを、ほとんどのモデルで見つけています。この「自由の傾き」はプログラミングの誤りではなく、民主的権利に焦点を当てた言論に関するトレーニングの創発的な特性であると主張する。民主的な言説を損なうのではなく、このパターンは、集合的推論を調べるための新しいレンズを提供するかもしれない。
論文参考訳（メタデータ） (2025-07-08T21:19:25Z)
ChatGPT is not A Man but Das Man: Representativeness and Structural Consistency of Silicon Samples Generated by Large Language Models [4.066868402300836]
大きな言語モデル(LLM)は、人間の意見をシミュレートするための「シリコンサンプル」として提案されている。本研究は, LLMが集団レベルでの見解を誤って表現する可能性があるとして, この概念を考察する。
論文参考訳（メタデータ） (2025-06-25T12:35:44Z)
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか? 我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文参考訳（メタデータ） (2025-04-29T12:39:07Z)
Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文参考訳（メタデータ） (2025-02-09T10:54:11Z)
Is GPT-4 Less Politically Biased than GPT-3.5? A Renewed Investigation of ChatGPT's Political Biases [0.0]
本稿では,ChatGPTの政治的バイアスと性格特性について検討し,特にGPT-3.5とGPT-4を比較した。政治コンパステストとビッグファイブパーソナリティテストはそれぞれのシナリオに100回採用されました。その結果, GPT-3.5 と GPT-4 の違いを解析するために, 計算平均, 標準偏差, 重要度試験を行った。人間の研究に相互依存していることが示されている特徴について、相関関係が発見された。
論文参考訳（メタデータ） (2024-10-28T13:32:52Z)
Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion [45.84205238554709]
我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。我々は,LSM GPT-3.5に対して,各回答者の投票選択を予測し,これらの予測を調査に基づく推定と比較する。 GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。
論文参考訳（メタデータ） (2024-07-11T14:52:18Z)
Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis [0.27309692684728604]
我々はOpenAIのフラッグシップモデルであるGPT-3.5とGPT-4に、異なるペルソナを仮定し、パーソナ構成の標準化された範囲に対応するよう促す。その結果, GPT-4からの反応は, GPT-3.5ではなく, 汎用的なペルソナ記述を用いれば, 完全ではないものの, 有望な心理特性を示すことがわかった。
論文参考訳（メタデータ） (2024-05-12T10:52:15Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文参考訳（メタデータ） (2024-03-17T07:08:55Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Behind the Screen: Investigating ChatGPT's Dark Personality Traits and Conspiracy Beliefs [0.0]
本稿では, GPT-3.5 と GPT-4 の暗黒性格特性と陰謀信念を分析した。ダークパーソナリティの特徴と陰謀の信念はどちらのモデルでも特に強調されなかった。
論文参考訳（メタデータ） (2024-02-06T16:03:57Z)
What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文参考訳（メタデータ） (2023-11-30T18:53:13Z)
Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文参考訳（メタデータ） (2023-11-08T18:52:17Z)
Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T07:41:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。