Fugu-MT 論文翻訳(概要): EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

論文の概要: EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2312.06281v2
Date: Wed, 3 Jan 2024 12:20:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 16:21:19.918612
Title: EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models
Title（参考訳）: EQ-Bench: 大規模言語モデルのための感情情報ベンチマーク
Authors: Samuel J. Paech
Abstract要約: EQ-Benchは,Large Language Models(LLMs)における感情知性の側面を評価するために設計された,新しいベンチマークである。対話における文字の感情状態の強さを予測することによって,複雑な感情を理解するLLMの能力を評価する。本ベンチマークでは,60問の英語質問を用いて,高い反復性を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of emotional intelligence in Large Language Models (LLMs). We assess the ability of LLMs to understand complex emotions and social interactions by asking them to predict the intensity of emotional states of characters in a dialogue. The benchmark is able to discriminate effectively between a wide range of models. We find that EQ-Bench correlates strongly with comprehensive multi-domain benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may be capturing similar aspects of broad intelligence. Our benchmark produces highly repeatable results using a set of 60 English-language questions. We also provide open-source code for an automated benchmarking pipeline at https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://eqbench.com
Abstract（参考訳）: 本稿では,Large Language Models (LLM) における感情知能の側面を評価するための新しいベンチマークであるEQ-Benchを紹介する。対話における登場人物の感情状態の強さを予測して,複雑な感情や社会的相互作用を理解するllmの能力を評価する。このベンチマークは、幅広いモデル間で効果的に判別することができる。 eq-bench は mmlu (hendrycks et al., 2020) (r=0.97) のような包括的マルチドメインベンチマークと強く相関しており、幅広い知能の類似の側面を捉えている可能性がある。本ベンチマークでは,60問の英語質問を用いて高い反復性を示す。また、https://github.com/EQ-bench/EQ-Benchでの自動ベンチマークパイプライン、https://eqbench.comでリーダーボード用のオープンソースコードも提供しています。

関連論文リスト

SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文参考訳（メタデータ） (2025-07-25T15:12:06Z)
RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents [67.46032287312339]
大規模言語モデル(LLM)は論理的およびアルゴリズム的推論において優れているが、彼らの感情的知性(EQ)は認知能力よりもはるかに遅れている。シミュレーションユーザによる検証可能な感情報酬を活用する,最初のエンドツーエンド強化学習フレームワークであるRLVERを紹介する。以上の結果から,RLVERは感情的知的で幅広い言語エージェントへの実践的な経路であることが示唆された。
論文参考訳（メタデータ） (2025-07-03T18:33:18Z)
SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。 SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文参考訳（メタデータ） (2025-06-05T05:51:35Z)
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models [35.24458725308099]
感情の反応を駆動する因果的要因に着目した感情解釈(EI)を提案する。従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。 EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模なベンチマークである。
論文参考訳（メタデータ） (2025-04-10T07:33:49Z)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [27.195518991292488]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。 EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文参考訳（メタデータ） (2025-02-06T18:13:35Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。 EmoBenchには、英語と中国語で400の手作りの質問が含まれている。以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文参考訳（メタデータ） (2024-02-19T11:48:09Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Emotional Intelligence of Large Language Models [9.834823298632374]
大規模言語モデル(LLM)は多くの分野において顕著な能力を示している。しかし、現実世界の応用にとって重要な人間の感情や価値観との整合性は、体系的に評価されていない。そこで我々は,感情認識,解釈,理解を含むLLMの感情知能(EI)を評価した。
論文参考訳（メタデータ） (2023-07-18T07:49:38Z)
Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文参考訳（メタデータ） (2023-05-24T09:21:06Z)
Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文参考訳（メタデータ） (2023-02-09T16:34:30Z)
NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。 NaQが複数のトップモデルを大幅に改善(精度を2倍に) また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文参考訳（メタデータ） (2023-01-02T16:40:15Z)
Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文参考訳（メタデータ） (2022-06-15T01:25:32Z)
SD-QA: Spoken Dialectal Question Answering for the Real World [15.401330338654203]
われわれは5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で68k以上の音声プロンプトを、255人の話者から24の方言で作成する。本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性やその他の感性的話者属性の影響を解析する。最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
論文参考訳（メタデータ） (2021-09-24T16:54:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。