論文の概要: Are Large Language Models More Empathetic than Humans?
- arxiv url: http://arxiv.org/abs/2406.05063v1
- Date: Fri, 7 Jun 2024 16:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:12:42.539915
- Title: Are Large Language Models More Empathetic than Humans?
- Title(参考訳): 大規模言語モデルは人間よりも共感的か?
- Authors: Anuradha Welivita, Pearl Pu,
- Abstract要約: GPT-4は最も共感的な反応として現れ、人間のベンチマークに比べて約31%の反応が「Good」と評価された。
一部のLSMは、特定の感情に反応するのが他よりもはるかに優れている。
- 参考スコア(独自算出の注目度): 14.18033127602866
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of large language models (LLMs), investigating if they can surpass humans in areas such as emotion recognition and empathetic responding has become a focal point of research. This paper presents a comprehensive study exploring the empathetic responding capabilities of four state-of-the-art LLMs: GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, and Mixtral-8x7B-Instruct in comparison to a human baseline. We engaged 1,000 participants in a between-subjects user study, assessing the empathetic quality of responses generated by humans and the four LLMs to 2,000 emotional dialogue prompts meticulously selected to cover a broad spectrum of 32 distinct positive and negative emotions. Our findings reveal a statistically significant superiority of the empathetic responding capability of LLMs over humans. GPT-4 emerged as the most empathetic, marking approximately 31% increase in responses rated as "Good" compared to the human benchmark. It was followed by LLaMA-2, Mixtral-8x7B, and Gemini-Pro, which showed increases of approximately 24%, 21%, and 10% in "Good" ratings, respectively. We further analyzed the response ratings at a finer granularity and discovered that some LLMs are significantly better at responding to specific emotions compared to others. The suggested evaluation framework offers a scalable and adaptable approach for assessing the empathy of new LLMs, avoiding the need to replicate this study's findings in future research.
- Abstract(参考訳): 大規模言語モデル (LLMs) の出現に伴い、感情認識や共感応答といった領域で人間を上回ることができるかどうかが研究の焦点となっている。
本稿では,GPT-4,LLaMA-2-70B-Chat,Gemini-1.0-Pro,Mixtral-8x7B-Instructの4種類のLLMの共感応答能力について,ヒトのベースラインと比較して総合的に検討した。
被験者1000名を対象に,人間と4つのLDMから2000の感情対話の共感的質を評価し,32種類の感情と否定的感情の幅広いスペクトルをカバーするよう注意的に選択した。
ヒトに対するLDMの共感応答能の統計的に有意な優位性を示した。
GPT-4は最も共感的であり、人間のベンチマークに比べて約31%の反応が「Good」と評価された。
続いてLLaMA-2, Mixtral-8x7B, Gemini-Proがそれぞれ24%, 21%, 10%の上昇を示した。
さらに, より粒度の細かい反応評価を解析した結果, 特定の感情に反応するLLMが他と比較して有意に優れていることが判明した。
提案する評価フレームワークは,新たなLSMの共感を評価するためのスケーラブルで適応的なアプローチを提供する。
関連論文リスト
- Large Language Models Produce Responses Perceived to be Empathic [40.38391275905264]
LLM(Large Language Models)は、一般的な生活経験を説明する投稿に応答して共感的なメッセージを生成する。
いくつかのモデルで書かれた様々な反応を示し、その反応がいかに共感的であるかを評価した。
その結果, LLM生成応答は人文応答よりも共感的であった。
論文 参考訳(メタデータ) (2024-03-26T23:14:34Z) - Is ChatGPT More Empathetic than Humans? [14.18033127602866]
我々は、人間とChatGPTが生み出す反応に対する共感のレベルを評価するために厳密な評価手法を用いる。
以上の結果から,ChatGPTが生成した反応の平均共感率は,ヒトが生成した反応よりも約10%高いことが示唆された。
ChatGPTに、その反応に共感の明確な理解を組み込むことを指示すると、反応は、高い共感の度合いを持つ個人の期待にほぼ5倍の精度で一致する。
論文 参考訳(メタデータ) (2024-02-22T09:52:45Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
我々は,Large Language Models (LLM) の共感能力を評価することを提案する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。
しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。
そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文 参考訳(メタデータ) (2023-07-18T07:49:38Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。