論文の概要: EmoBench: Evaluating the Emotional Intelligence of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.12071v1
- Date: Mon, 19 Feb 2024 11:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:53:19.396570
- Title: EmoBench: Evaluating the Emotional Intelligence of Large Language Models
- Title(参考訳): EmoBench: 大規模言語モデルの感情知性を評価する
- Authors: Sahand Sabour, Siyang Liu, Zheyuan Zhang, June M. Liu, Jinfeng Zhou,
Alvionna S. Sunaryo, Juanzi Li, Tatia M.C. Lee, Rada Mihalcea, Minlie Huang
- Abstract要約: EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
- 参考スコア(独自算出の注目度): 75.79920924768798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have highlighted the need for
robust, comprehensive, and challenging benchmarks. Yet, research on evaluating
their Emotional Intelligence (EI) is considerably limited. Existing benchmarks
have two major shortcomings: first, they mainly focus on emotion recognition,
neglecting essential EI capabilities such as emotion regulation and thought
facilitation through emotion understanding; second, they are primarily
constructed from existing datasets, which include frequent patterns, explicit
information, and annotation errors, leading to unreliable evaluation. We
propose EmoBench, a benchmark that draws upon established psychological
theories and proposes a comprehensive definition for machine EI, including
Emotional Understanding and Emotional Application. EmoBench includes a set of
400 hand-crafted questions in English and Chinese, which are meticulously
designed to require thorough reasoning and understanding. Our findings reveal a
considerable gap between the EI of existing LLMs and the average human,
highlighting a promising direction for future research. Our code and data will
be publicly available from https://github.com/Sahandfer/EmoBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、堅牢で包括的で挑戦的なベンチマークの必要性を強調している。
しかし、感情知性(EI)を評価する研究は極めて限られている。
第一に、感情認識、感情制御や感情理解による思考の円滑化といった本質的なei能力の無視、第二に、それらは、頻繁なパターン、明示的な情報、アノテーションエラーを含む既存のデータセットから主に構築されており、信頼性の低い評価につながる。
EmoBenchは、確立した心理学理論を基礎として、感情理解と感情応用を含む、マシンEIの包括的定義を提案する。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存のLDMのEIと平均的な人間の間には,かなりのギャップが見られ,今後の研究への期待が浮かび上がっている。
私たちのコードとデータはhttps://github.com/Sahandfer/EmoBench.comから公開されます。
関連論文リスト
- Both Matter: Enhancing the Emotional Intelligence of Large Language
Models without Compromising the General Intelligence [43.508058657358916]
感情インテリジェンス(EI)は、現在の大言語モデル(LLM)ベースの会話型汎用AIアシスタントのユーザインタラクションエクスペリエンスを改善する上で、重要な役割を果たす。
これまでの研究は主に、EI関連分類や回帰タスクの微調整による感情知覚能力の向上に重点を置いていた。
タスク命令付きテキスト・ツー・テキスト生成におけるEI関連タスクの大規模コレクションであるtextscEiBenchを紹介する。
UnderlinetextbfModular UnderlinetextbfEmotional Underline
論文 参考訳(メタデータ) (2024-02-15T16:36:04Z) - Enhancing Emotional Generation Capability of Large Language Models via
Emotional Chain-of-Thought [53.1230874584344]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。
しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。
そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文 参考訳(メタデータ) (2023-07-18T07:49:38Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - HICEM: A High-Coverage Emotion Model for Artificial Emotional
Intelligence [9.153146173929935]
次世代の人工知能(AEI)は、より深く、より有意義な人間と機械の相互作用に対するユーザの欲求に対処するために、中心的な段階を採っている。
心理学における歴史的焦点である感情の理論とは異なり、感情モデルは記述的な道具である。
この研究は、社会ロボティクス、人間と機械の相互作用、メンタルヘルスケア、計算心理学に幅広い影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-15T15:21:30Z) - Micro-expression spotting: A new benchmark [74.69928316848866]
マイクロ表現(ME)は、人々が本当の感情を隠そうとしたり、感情を隠そうとするときに起こる、簡潔で不随意の表情である。
コンピュータビジョンの分野では、MEの研究はスポッティングと認識という2つの主要なタスクに分けられる。
本稿ではSMIC-Eデータベースの拡張,すなわちSMIC-E-Longデータベースを紹介する。
論文 参考訳(メタデータ) (2020-07-24T09:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。