Fugu-MT 論文翻訳(概要): Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench

論文の概要: Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench

arxiv url: http://arxiv.org/abs/2308.03656v6
Date: Fri, 04 Oct 2024 20:02:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 13:54:08.070944
Title: Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench
Title（参考訳）: 情緒的核・共感 : EmotionBench を用いた LLM の評価
Authors: Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu,
Abstract要約: 心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
参考スコア（独自算出の注目度）: 83.41621219298489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating Large Language Models' (LLMs) anthropomorphic capabilities has become increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, i.e., how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes seven LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4, Mixtral-8x22B, and LLaMA-3.1. We find that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our collected dataset of situations, the human evaluation results, and the code of our testing framework, i.e., EmotionBench, are publicly available at https://github.com/CUHK-ARISE/EmotionBench.
Abstract（参考訳）: 大規模言語モデル(LLM)の人為的能力の評価は,現代言論においてますます重要になっている。感情評価理論を心理学から活用し, LLMの共感能力, すなわち, 特定の状況における感情の変化を評価することを提案する。注意深い総合的な調査の後、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集しました。状況を36因子に分類し,世界中の1200名以上の被験者を対象に人間による評価を行った。 GPT-4、Mixtral-8x22B、LLaMA-3.1のような最新のイテレーションを特徴とする商用モデルとオープンソースモデルの両方をカバーする。いくつかのミスアライメントにもかかわらず、LLMは一般的に特定の状況に適切に対応できる。しかしながら、それらは人間の感情的な行動と一致せず、類似した状況間のつながりを確立できない。 EmotionBenchはhttps://github.com/CUHK-ARISE/EmotionBench.comで公開されています。

関連論文リスト

Large Language Models are Highly Aligned with Human Ratings of Emotional Stimuli [0.62914438169038]
感情は、普通の場所と高いストレスの両方のタスクにおいて、人間の行動と認知に大きな影響を及ぼす。大規模言語モデルは、感情的に負荷された刺激や状況がどのように評価されるかを理解することによって、議論を知らせるべきである。これらのケースにおけるモデルと人間の行動との整合性は、特定の役割や相互作用に対するLLMの有効性を知らせることができる。
論文参考訳（メタデータ） (2025-08-19T19:22:00Z)
Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models [13.341709038654198]
我々は,大規模言語モデルで暗黙的に使用される内的認知構造を評価するために,感情に対する認知推論に関する大規模ベンチマークを導入する。結果と分析結果から,LLMの多種多様な推論パターンが明らかとなった。
論文参考訳（メタデータ） (2025-08-07T22:19:15Z)
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。 SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。 SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文参考訳（メタデータ） (2025-05-01T19:06:10Z)
AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文参考訳（メタデータ） (2025-04-20T18:49:25Z)
Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文参考訳（メタデータ） (2024-09-04T01:40:20Z)
Recognizing Emotion Regulation Strategies from Human Behavior with Large Language Models [44.015651538470856]
人間の感情は直接表現されないことが多いが、内部のプロセスや社会的表示規則に従って制御される。ユーザ間のシナリオで異なる感情制御戦略を自動的に分類する方法は存在しない。我々は最近導入されたtextscDeepコーパスを利用して、感情の恥の社会的表示をモデル化する。微調整されたLlama2-7Bモデルは、利用した感情制御戦略を高精度に分類することができる。
論文参考訳（メタデータ） (2024-08-08T12:47:10Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文参考訳（メタデータ） (2024-06-17T03:01:22Z)
Are Large Language Models More Empathetic than Humans? [14.18033127602866]
GPT-4は最も共感的な反応として現れ、人間のベンチマークに比べて約31%の反応が「Good」と評価された。一部のLSMは、特定の感情に反応するのが他よりもはるかに優れている。
論文参考訳（メタデータ） (2024-06-07T16:33:43Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Evaluating Subjective Cognitive Appraisals of Emotions from Large Language Models [47.890846082224066]
この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。 CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
論文参考訳（メタデータ） (2023-10-22T19:12:17Z)
Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文参考訳（メタデータ） (2023-07-18T07:49:38Z)
Large Language Models Understand and Can be Enhanced by Emotional Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。 EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-07-14T00:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。