論文の概要: EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.06281v2
- Date: Wed, 3 Jan 2024 12:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:21:19.918612
- Title: EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
- Title(参考訳): EQ-Bench: 大規模言語モデルのための感情情報ベンチマーク
- Authors: Samuel J. Paech
- Abstract要約: EQ-Benchは,Large Language Models(LLMs)における感情知性の側面を評価するために設計された,新しいベンチマークである。
対話における文字の感情状態の強さを予測することによって,複雑な感情を理解するLLMの能力を評価する。
本ベンチマークでは,60問の英語質問を用いて,高い反復性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of
emotional intelligence in Large Language Models (LLMs). We assess the ability
of LLMs to understand complex emotions and social interactions by asking them
to predict the intensity of emotional states of characters in a dialogue. The
benchmark is able to discriminate effectively between a wide range of models.
We find that EQ-Bench correlates strongly with comprehensive multi-domain
benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may
be capturing similar aspects of broad intelligence. Our benchmark produces
highly repeatable results using a set of 60 English-language questions. We also
provide open-source code for an automated benchmarking pipeline at
https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://eqbench.com
- Abstract(参考訳): 本稿では,Large Language Models (LLM) における感情知能の側面を評価するための新しいベンチマークであるEQ-Benchを紹介する。
対話における登場人物の感情状態の強さを予測して,複雑な感情や社会的相互作用を理解するllmの能力を評価する。
このベンチマークは、幅広いモデル間で効果的に判別することができる。
eq-bench は mmlu (hendrycks et al., 2020) (r=0.97) のような包括的マルチドメインベンチマークと強く相関しており、幅広い知能の類似の側面を捉えている可能性がある。
本ベンチマークでは,60問の英語質問を用いて高い反復性を示す。
また、https://github.com/EQ-bench/EQ-Benchでの自動ベンチマークパイプライン、https://eqbench.comでリーダーボード用のオープンソースコードも提供しています。
関連論文リスト
- EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。
しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。
そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文 参考訳(メタデータ) (2023-07-18T07:49:38Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - SD-QA: Spoken Dialectal Question Answering for the Real World [15.401330338654203]
われわれは5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で68k以上の音声プロンプトを、255人の話者から24の方言で作成する。
本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性やその他の感性的話者属性の影響を解析する。
最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
論文 参考訳(メタデータ) (2021-09-24T16:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。