論文の概要: ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.14952v3
- Date: Mon, 28 Oct 2024 13:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:45.444602
- Title: ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models
- Title(参考訳): ESC-Eval:大規模言語モデルにおける感情支援対話の評価
- Authors: Haiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexin Huang, Tianle Gu, Yixu Wang, Wang Jian, Dandan Liang, Zhixu Li, Yan Teng, Yanghua Xiao, Yingchun Wang,
- Abstract要約: Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
- 参考スコア(独自算出の注目度): 55.301188787490545
- License:
- Abstract: Emotion Support Conversation (ESC) is a crucial application, which aims to reduce human stress, offer emotional guidance, and ultimately enhance human mental and physical well-being. With the advancement of Large Language Models (LLMs), many researchers have employed LLMs as the ESC models. However, the evaluation of these LLM-based ESCs remains uncertain. Inspired by the awesome development of role-playing agents, we propose an ESC Evaluation framework (ESC-Eval), which uses a role-playing agent to interact with ESC models, followed by a manual evaluation of the interactive dialogues. In detail, we first re-organize 2,801 role-playing cards from seven existing datasets to define the roles of the role-playing agent. Second, we train a specific role-playing model called ESC-Role which behaves more like a confused person than GPT-4. Third, through ESC-Role and organized role cards, we systematically conduct experiments using 14 LLMs as the ESC models, including general AI-assistant LLMs (ChatGPT) and ESC-oriented LLMs (ExTES-Llama). We conduct comprehensive human annotations on interactive multi-turn dialogues of different ESC models. The results show that ESC-oriented LLMs exhibit superior ESC abilities compared to general AI-assistant LLMs, but there is still a gap behind human performance. Moreover, to automate the scoring process for future ESC models, we developed ESC-RANK, which trained on the annotated data, achieving a scoring performance surpassing 35 points of GPT-4. Our data and code are available at https://github.com/AIFlames/Esc-Eval.
- Abstract(参考訳): 感情支援会話(Emotion Support Conversation、ESC)は、人間のストレスを減らし、感情的な指導を提供し、究極的には人間の精神的・身体的幸福を高めることを目的とした重要なアプリケーションである。
LLM(Large Language Models)の発展に伴い、多くの研究者がESCモデルとしてLLMを使用している。
しかし,これらのLCMを用いたESCの評価はいまだに不確実である。
ロールプレイングエージェントの開発に触発されて,ESCモデルとの対話にロールプレイングエージェントを使用するESC評価フレームワーク(ESC-Eval)を提案し,対話型対話を手動で評価する。
より詳しくは、7つの既存のデータセットから2,801個のロールプレイングカードを再編成し、ロールプレイングエージェントの役割を定義した。
第2に,GAT-4よりも混乱した人物のように振る舞うESC-Roleと呼ばれる特定のロールプレイングモデルを訓練する。
第3に,ESC-Role と組織化されたロールカードを通じて,汎用AI支援 LLM (ChatGPT) やESC指向 LLM (ExTES-Llama) を含む14 LLM をESCモデルとして,系統的に実験を行った。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
その結果、ESC指向のLSMは一般のAI支援LSMよりも優れたESC能力を示すが、人間のパフォーマンスには差があることがわかった。
さらに,将来のESCモデルのスコアリングプロセスを自動化するために,注釈付きデータに基づいてトレーニングしたESC-RANKを開発し,GPT-4の35ポイントを超えるスコアリング性能を実現した。
私たちのデータとコードはhttps://github.com/AIFlames/Esc-Eval.orgで公開されています。
関連論文リスト
- Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues [7.765092134290888]
本稿では,大規模言語モデルを活用することで,タスク指向対話の複雑な要求に対処する新しいフレームワークであるDuetSimを紹介する。
DuetSim は2つの LLM をタンデムで採用することで従来の手法とは異なっている。
提案手法の有効性を,MultiWOZデータセットを用いた広範囲な実験により検証し,応答品質と正しさの向上を強調した。
論文 参考訳(メタデータ) (2024-05-16T06:24:31Z) - From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models [14.894922829587841]
感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。
現在の非芸術的方法論は、感情的支援能力を効果的に評価する上で困難に直面している。
本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
論文 参考訳(メタデータ) (2024-03-23T03:32:26Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Improving Multi-turn Emotional Support Dialogue Generation with
Lookahead Strategy Planning [81.79431311952656]
感情支援のための新しいシステムMultiESCを提案する。
戦略プランニングでは,特定の戦略を使用した後のユーザフィードバックを見積もるルックアヘッドを提案する。
ユーザ状態モデリングにおいて、MultiESCはユーザーの微妙な感情表現を捉え、感情の原因を理解することに重点を置いている。
論文 参考訳(メタデータ) (2022-10-09T12:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。