論文の概要: MoodBench 1.0: An Evaluation Benchmark for Emotional Companionship Dialogue Systems
- arxiv url: http://arxiv.org/abs/2511.18926v1
- Date: Mon, 24 Nov 2025 09:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.134798
- Title: MoodBench 1.0: An Evaluation Benchmark for Emotional Companionship Dialogue Systems
- Title(参考訳): MoodBench 1.0:感情的コンパニオンシップ対話システムの評価ベンチマーク
- Authors: Haifeng Jing, Yujie Hou, Junfei Liu, Rui Xie, alan Xu, Jinlong Ma, Qichun Deng,
- Abstract要約: 本稿では,情緒コンパニオンシップ対話システム (ECD) の形式的記述による定義を提案する。
次に、最初のECD評価ベンチマークであるMoodBench 1.0を設計、実装します。
30の主流モデルの広範な評価を通じて,MoodBench 1.0は識別妥当性に優れ,モデル間の感情的相性の違いを効果的に定量化できることを示した。
- 参考スコア(独自算出の注目度): 8.168404517212217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of Large Language Models, dialogue systems are shifting from information tools to emotional companions, heralding the era of Emotional Companionship Dialogue Systems (ECDs) that provide personalized emotional support for users. However, the field lacks clear definitions and systematic evaluation standards for ECDs. To address this, we first propose a definition of ECDs with formal descriptions. Then, based on this theory and the design principle of "Ability Layer-Task Layer (three level)-Data Layer-Method Layer", we design and implement the first ECD evaluation benchmark - MoodBench 1.0. Through extensive evaluations of 30 mainstream models, we demonstrate that MoodBench 1.0 has excellent discriminant validity and can effectively quantify the differences in emotional companionship abilities among models. Furthermore, the results reveal current models' shortcomings in deep emotional companionship, guiding future technological optimization and significantly aiding developers in enhancing ECDs' user experience.
- Abstract(参考訳): 大規模言語モデルの急速な発展に伴い、対話システムは情報ツールから感情的仲間へとシフトし、ユーザに対してパーソナライズされた感情支援を提供する感情的コンパニオンシップ対話システム(ECD)の時代を告げている。
しかし、この分野にはECDの明確な定義と体系的な評価基準が欠けている。
そこで我々はまず,形式的な記述を伴うECDの定義を提案する。
そして、この理論と"Ability Layer-Task Layer (3レベル)-Data Layer-Method Layer"の設計原則に基づいて、最初のECD評価ベンチマークであるMoodBench 1.0を設計、実装します。
30の主流モデルの広範な評価を通じて,MoodBench 1.0は識別妥当性に優れ,モデル間の感情的相性の違いを効果的に定量化できることを示した。
さらに, この結果から, 現在のモデルでは, 深い感情的協力関係の欠点, 将来的な技術最適化の指針, 開発者がECDのユーザエクスペリエンスを向上させる上で, 極めて重要な役割を担っていることが明らかとなった。
関連論文リスト
- Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models [6.810484095299127]
感情支援は人間とAIの相互作用における中核的な能力であり、心理学的カウンセリング、ロールプレイ、コンパニオンシップなどの応用がある。
大規模言語モデル(LLM)の既存の評価は、しばしば短く静的な対話に依存し、感情的サポートの動的で長期的な性質を捉えない。
本フレームワークは,328の情緒的文脈と1,152の外乱イベントからなる大規模ベンチマークを構築し,進化する対話シナリオ下での現実的な情緒的変化をシミュレートする。
論文 参考訳(メタデータ) (2025-11-12T05:47:28Z) - Personality-affected Emotion Generation in Dialog Systems [67.40609683389947]
ダイアログシステムに与えられた個性に基づいて感情を生成する新しいタスクであるパーソナリティ影響感情生成を提案する。
本課題の課題,すなわち,(1)個性と感情的要因を不均一に統合し,(2)対話場面における多粒性感情情報を抽出する。
その結果,感情生成性能はマクロF1では13%,重み付きF1では5%向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:48:50Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。