論文の概要: Exploring the psychology of LLMs' Moral and Legal Reasoning
- arxiv url: http://arxiv.org/abs/2308.01264v2
- Date: Mon, 4 Mar 2024 19:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:00:21.541490
- Title: Exploring the psychology of LLMs' Moral and Legal Reasoning
- Title(参考訳): LLMの道徳と法的推論の心理学的考察
- Authors: Guilherme F. C. F. Almeida, Jos\'e Luiz Nunes, Neele Engelmann, Alex
Wiegmann, Marcelo de Ara\'ujo
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな領域にわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
LLMによって提起された倫理的問題と将来のバージョンを整合させる必要性は、アートモデルの現状が道徳的および法的問題にどのように影響するかを知ることが重要である。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
ある実験から別の実験へと人間の反応の一致が変化し、モデルが全体として異なることがわかりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) exhibit expert-level performance in tasks across
a wide range of different domains. Ethical issues raised by LLMs and the need
to align future versions makes it important to know how state of the art models
reason about moral and legal issues. In this paper, we employ the methods of
experimental psychology to probe into this question. We replicate eight studies
from the experimental literature with instances of Google's Gemini Pro,
Anthropic's Claude 2.1, OpenAI's GPT-4, and Meta's Llama 2 Chat 70b. We find
that alignment with human responses shifts from one experiment to another, and
that models differ amongst themselves as to their overall alignment, with GPT-4
taking a clear lead over all other models we tested. Nonetheless, even when
LLM-generated responses are highly correlated to human responses, there are
still systematic differences, with a tendency for models to exaggerate effects
that are present among humans, in part by reducing variance. This recommends
caution with regards to proposals of replacing human participants with current
state-of-the-art LLMs in psychological research and highlights the need for
further research about the distinctive aspects of machine psychology.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインにわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
llmによって引き起こされた倫理的問題と将来のバージョンを調整する必要性は、芸術モデルが道徳的および法的問題に対してどのように責任を負うかを知ることが重要である。
本稿では,実験心理学の手法を用いてこの問題を調査する。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
GPT-4は、テストした他のすべてのモデルに対して明確なリードを取っているので、全体のアライメントについては、モデルが異なることが分かっています。
それでも、LLM生成応答がヒトの反応と強く相関している場合でも、体系的な違いはみられ、モデルが人間の間に存在する影響を誇張する傾向にある。
これは、人間の参加者を現在の最先端のLLMに置き換える提案を心理的研究で推奨し、機械心理学の特有の側面についてさらなる研究の必要性を強調している。
関連論文リスト
- One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity [2.5975241792179378]
研究者は大規模言語モデル(LLM)を人間の行動研究の代替として使用することを提案した。
トレーニング後のアライメント(RLHFまたはRLAIF)がモデルの内部多様性に影響を及ぼすかどうかが議論されている。
我々は、シミュレーションされた個体の内部変動と集団レベルの変動を関連づけることで、合成合成LLMの「人口」の概念的多様性を測定する新しい方法を用いる。
論文 参考訳(メタデータ) (2024-11-07T04:38:58Z) - Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia [27.650551131885152]
大規模言語モデル(LLM)の研究は、物理世界の複雑なタスクに対処する上で有望であることを示している。
GPT-4のような強力なLDMは、人間のような認知能力を示し始めていることが研究で示唆されている。
論文 参考訳(メタデータ) (2024-10-02T15:47:25Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games [9.82711167146543]
本稿では,Large Language Models (LLMs) の意思決定に関する新しい方法論を紹介する。
感情がLLMのパフォーマンスに大きく影響を与え、より最適な戦略の開発につながることを示す。
驚くべきことに、感情的な刺激、特に怒りの感情は、GPT-4の「超人的」アライメントを妨害する可能性がある。
論文 参考訳(メタデータ) (2024-06-05T14:08:54Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review [4.147674289030404]
大規模言語モデル(LLM)は、人間の認知と行動の側面をシミュレートする可能性がある。
LLMは、文献レビュー、仮説生成、実験的なデザイン、実験的な主題、データ分析、学術的な執筆、心理学におけるピアレビューのための革新的なツールを提供する。
データプライバシ、心理的研究にLLMを使うことの倫理的意味、モデルの制限をより深く理解する必要がある、といった問題があります。
論文 参考訳(メタデータ) (2024-01-03T03:01:29Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Investigating Large Language Models' Perception of Emotion Using
Appraisal Theory [3.0902630634005797]
大規模言語モデル (LLM) は近年大きく進歩し、現在一般に使われている。
本研究では,評価・対処理論のレンズによる感情知覚について検討する。
SCPQ を OpenAI, davinci-003, ChatGPT, GPT-4 の3つの最近の LLM に適用し,評価理論と人体データによる予測結果と比較した。
論文 参考訳(メタデータ) (2023-10-03T16:34:47Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。