論文の概要: LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction
- arxiv url: http://arxiv.org/abs/2509.07403v1
- Date: Tue, 09 Sep 2025 05:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.188554
- Title: LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction
- Title(参考訳): 長期的感情:長期的相互作用における大規模言語モデルの感情的知性の測定
- Authors: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong,
- Abstract要約: LongEmotionは、ロングコンテキスト感情知能(EI)タスク用に特別に設計されたベンチマークである。
感情分類、感情検出、感情QA、感情会話、感情概要、感情表現など、さまざまなタスクをカバーしている。
現実的な制約下での性能を高めるため、検索型強化世代(RAG)と協調感情モデリング(CoEM)を取り入れた。
- 参考スコア(独自算出の注目度): 72.19473883287948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) make significant progress in Emotional Intelligence (EI) and long-context understanding. However, existing benchmarks tend to overlook certain aspects of EI in long-context scenarios, especially under realistic, practical settings where interactions are lengthy, diverse, and often noisy. To move towards such realistic settings, we present LongEmotion, a benchmark specifically designed for long-context EI tasks. It covers a diverse set of tasks, including Emotion Classification, Emotion Detection, Emotion QA, Emotion Conversation, Emotion Summary, and Emotion Expression. On average, the input length for these tasks reaches 8,777 tokens, with long-form generation required for Emotion Expression. To enhance performance under realistic constraints, we incorporate Retrieval-Augmented Generation (RAG) and Collaborative Emotional Modeling (CoEM), and compare them with standard prompt-based methods. Unlike conventional approaches, our RAG method leverages both the conversation context and the large language model itself as retrieval sources, avoiding reliance on external knowledge bases. The CoEM method further improves performance by decomposing the task into five stages, integrating both retrieval augmentation and limited knowledge injection. Experimental results show that both RAG and CoEM consistently enhance EI-related performance across most long-context tasks, advancing LLMs toward more practical and real-world EI applications. Furthermore, we conducted a comparative case study experiment on the GPT series to demonstrate the differences among various models in terms of EI. Code is available on GitHub at https://github.com/LongEmotion/LongEmotion, and the project page can be found at https://longemotion.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)は感情知能(EI)と長文理解に大きな進歩をもたらす。
しかし、既存のベンチマークは、特に対話が長く、多様で、しばしばノイズの多い現実的で実践的な環境では、EIの特定の側面を見落としがちである。
このような現実的な設定に向けて、LongEmotionという長文EIタスク用に特別に設計されたベンチマークを提示する。
感情分類、感情検出、感情QA、感情会話、感情概要、感情表現など、さまざまなタスクをカバーしている。
平均すると、これらのタスクの入力長は8,777トークンに達し、感情表現には長文生成が必要である。
現実的な制約下での性能向上を図るため,Retrieval-Augmented Generation (RAG) とCollaborative Emotional Modeling (CoEM) を統合し,標準的なプロンプトベース手法と比較した。
従来の手法とは異なり、RAG法は会話コンテキストと大言語モデル自体を検索源として利用し、外部知識ベースへの依存を避ける。
CoEM法は,タスクを5段階に分解し,検索の強化と知識注入の制限を両立させることにより,パフォーマンスをさらに向上させる。
実験結果から,RAGとCoEMは長文タスクのEI関連性能を継続的に向上し,LLMをより実用的で現実的なEIアプリケーションへと発展させることが明らかとなった。
さらに, GPTシリーズのケーススタディ実験を行い, 各種モデルの違いをEIの観点から検証した。
GitHubではhttps://github.com/LongEmotion/LongEmotionで、プロジェクトのページはhttps://longemotion.github.io/で公開されている。
関連論文リスト
- MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models [35.24458725308099]
感情の反応を駆動する因果的要因に着目した感情解釈(EI)を提案する。
従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。
EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-04-10T07:33:49Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。