論文の概要: Large Language Models are Highly Aligned with Human Ratings of Emotional Stimuli
- arxiv url: http://arxiv.org/abs/2508.14214v1
- Date: Tue, 19 Aug 2025 19:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.251266
- Title: Large Language Models are Highly Aligned with Human Ratings of Emotional Stimuli
- Title(参考訳): 大規模言語モデルは感情刺激の人間のレーティングに高度に適応する
- Authors: Mattson Ogg, Chace Ashcraft, Ritwik Bose, Raphael Norman-Tenazas, Michael Wolmetz,
- Abstract要約: 感情は、普通の場所と高いストレスの両方のタスクにおいて、人間の行動と認知に大きな影響を及ぼす。
大規模言語モデルは、感情的に負荷された刺激や状況がどのように評価されるかを理解することによって、議論を知らせるべきである。
これらのケースにおけるモデルと人間の行動との整合性は、特定の役割や相互作用に対するLLMの有効性を知らせることができる。
- 参考スコア(独自算出の注目度): 0.62914438169038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotions exert an immense influence over human behavior and cognition in both commonplace and high-stress tasks. Discussions of whether or how to integrate large language models (LLMs) into everyday life (e.g., acting as proxies for, or interacting with, human agents), should be informed by an understanding of how these tools evaluate emotionally loaded stimuli or situations. A model's alignment with human behavior in these cases can inform the effectiveness of LLMs for certain roles or interactions. To help build this understanding, we elicited ratings from multiple popular LLMs for datasets of words and images that were previously rated for their emotional content by humans. We found that when performing the same rating tasks, GPT-4o responded very similarly to human participants across modalities, stimuli and most rating scales (r = 0.9 or higher in many cases). However, arousal ratings were less well aligned between human and LLM raters, while happiness ratings were most highly aligned. Overall LLMs aligned better within a five-category (happiness, anger, sadness, fear, disgust) emotion framework than within a two-dimensional (arousal and valence) organization. Finally, LLM ratings were substantially more homogenous than human ratings. Together these results begin to describe how LLM agents interpret emotional stimuli and highlight similarities and differences among biological and artificial intelligence in key behavioral domains.
- Abstract(参考訳): 感情は、普通の場所と高いストレスの両方のタスクにおいて、人間の行動と認知に大きな影響を及ぼす。
大規模言語モデル(LLM)を日常の生活(例えば、人的エージェントのプロキシとして行動したり、相互作用したり)に組み込むには、これらのツールが感情的に負荷された刺激や状況をどのように評価するかを理解する必要がある。
これらのケースにおけるモデルと人間の行動との整合性は、特定の役割や相互作用に対するLLMの有効性を知らせることができる。
この理解を深めるために、私たちは、以前人間によって感情的な内容として評価された単語や画像のデータセットに対して、複数の人気のあるLCMから評価を導きました。
同じ評価タスクを行う場合、GPT-4oは、モダリティ、刺激、ほとんどの評価尺度(r=0.9以上の場合が多い)において、人間の参加者と非常によく似た反応を示した。
しかし, 幸福度は, 幸福度が最も高く一致しているのに対して, 覚醒評価は人間とLLMのレーナーの整合性が低かった。
LLMは5つのカテゴリー(幸福、怒り、悲しみ、恐怖、嫌悪感)の感情の枠組みにおいて、2次元(覚醒的、勇気的)の組織よりも整合している。
最後に、LLMの格付けは人間の格付けよりもほぼ均質であった。
これらの結果は、LLMエージェントが感情的な刺激をどう解釈し、重要な行動領域における生物学的および人工知能の類似点と相違点を強調するかを説明する。
関連論文リスト
- Fluent but Unfeeling: The Emotional Blind Spots of Language Models [1.248728117157669]
LLM(Large Language Models)が人間の感情と微粒なレベルで一致しているかどうかを評価する上で、重要なギャップが残っている。
Redditコミュニティから収集されたベンチマークデータセットであるExpressを紹介します。
包括的評価フレームワークは、予測された感情条件を検証し、確立された感情理論を用いて、それらを8つの基本的な感情に分解する。
論文 参考訳(メタデータ) (2025-09-11T16:31:13Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? [7.308479353736709]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。
しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。
そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文 参考訳(メタデータ) (2023-07-18T07:49:38Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。