論文の概要: EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.06281v2
- Date: Wed, 3 Jan 2024 12:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:21:19.918612
- Title: EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
- Title(参考訳): EQ-Bench: 大規模言語モデルのための感情情報ベンチマーク
- Authors: Samuel J. Paech
- Abstract要約: EQ-Benchは,Large Language Models(LLMs)における感情知性の側面を評価するために設計された,新しいベンチマークである。
対話における文字の感情状態の強さを予測することによって,複雑な感情を理解するLLMの能力を評価する。
本ベンチマークでは,60問の英語質問を用いて,高い反復性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of
emotional intelligence in Large Language Models (LLMs). We assess the ability
of LLMs to understand complex emotions and social interactions by asking them
to predict the intensity of emotional states of characters in a dialogue. The
benchmark is able to discriminate effectively between a wide range of models.
We find that EQ-Bench correlates strongly with comprehensive multi-domain
benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may
be capturing similar aspects of broad intelligence. Our benchmark produces
highly repeatable results using a set of 60 English-language questions. We also
provide open-source code for an automated benchmarking pipeline at
https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://eqbench.com
- Abstract(参考訳): 本稿では,Large Language Models (LLM) における感情知能の側面を評価するための新しいベンチマークであるEQ-Benchを紹介する。
対話における登場人物の感情状態の強さを予測して,複雑な感情や社会的相互作用を理解するllmの能力を評価する。
このベンチマークは、幅広いモデル間で効果的に判別することができる。
eq-bench は mmlu (hendrycks et al., 2020) (r=0.97) のような包括的マルチドメインベンチマークと強く相関しており、幅広い知能の類似の側面を捉えている可能性がある。
本ベンチマークでは,60問の英語質問を用いて高い反復性を示す。
また、https://github.com/EQ-bench/EQ-Benchでの自動ベンチマークパイプライン、https://eqbench.comでリーダーボード用のオープンソースコードも提供しています。
関連論文リスト
- Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。
効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-20T08:36:58Z) - EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [27.195518991292488]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文 参考訳(メタデータ) (2025-02-06T18:13:35Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - SD-QA: Spoken Dialectal Question Answering for the Real World [15.401330338654203]
われわれは5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で68k以上の音声プロンプトを、255人の話者から24の方言で作成する。
本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性やその他の感性的話者属性の影響を解析する。
最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
論文 参考訳(メタデータ) (2021-09-24T16:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。