Fugu-MT 論文翻訳(概要): FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models

論文の概要: FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models

arxiv url: http://arxiv.org/abs/2403.15699v1
Date: Sat, 23 Mar 2024 03:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 21:32:08.096980
Title: FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models
Title（参考訳）: FEEL: 大規模言語モデルによる感情支援能力評価フレームワーク
Authors: Huaiwen Zhang, Yu Chen, Ming Wang, Shi Feng,
Abstract要約: Emotional Support Conversation (ESC) は、ユーザーが感情的なプレッシャーを軽減できる典型的な対話である。現在の非人工的方法論は、エモオプション支援能力を効果的に評価する上で、課題に直面している。本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
参考スコア（独自算出の注目度）: 14.894922829587841
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional Support Conversation (ESC) is a typical dialogue that can effec-tively assist the user in mitigating emotional pressures. However, owing to the inherent subjectivity involved in analyzing emotions, current non-artificial methodologies face challenges in effectively appraising the emo-tional support capability. These metrics exhibit a low correlation with human judgments. Concurrently, manual evaluation methods extremely will cause high costs. To solve these problems, we propose a novel model FEEL (Framework for Evaluating Emotional Support Capability with Large Lan-guage Models), employing Large Language Models (LLMs) as evaluators to assess emotional support capabilities. The model meticulously considers var-ious evaluative aspects of ESC to apply a more comprehensive and accurate evaluation method for ESC. Additionally, it employs a probability distribu-tion approach for a more stable result and integrates an ensemble learning strategy, leveraging multiple LLMs with assigned weights to enhance evalua-tion accuracy. To appraise the performance of FEEL, we conduct extensive experiments on existing ESC model dialogues. Experimental results demon-strate our model exhibits a substantial enhancement in alignment with human evaluations compared to the baselines. Our source code is available at https://github.com/Ansisy/FEEL.
Abstract（参考訳）: 感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを和らげる典型的な対話である。しかし、感情の分析に関わる本質的な主観性のため、現在の非人工的方法論は、エモオプション支援能力を効果的に評価する上で困難に直面している。これらの指標は人間の判断と相関が低い。同時に、手作業による評価手法が極めて高いコストを発生させる。これらの問題を解決するために,大規模言語モデル(LLM)を用いて感情支援能力を評価する新しいモデルFEEL(大規模言語モデルを用いた感情支援能力評価フレームワーク)を提案する。このモデルは、ESCの様々な評価側面を慎重に考慮し、より包括的で正確な評価方法を適用する。さらに、より安定した結果を得るために確率分布法を採用し、アンサンブル学習戦略を統合し、割り当てられた重み付き複数のLLMを活用して評価精度を高める。 FEELの性能を評価するため,既存のESCモデル対話について広範な実験を行った。実験結果から,本モデルでは,ベースラインと比較して,人体評価との整合性が著しく向上していることがわかった。ソースコードはhttps://github.com/Ansisy/FEELで公開されています。

関連論文リスト

Emotional Support with LLM-based Empathetic Dialogue Generation [5.289702620838033]
本稿では, NLPCC 2025 Task 8 ESC 評価のためのソリューションを提案する。我々は,素早い工学的手法と微調整技術によって強化された大規模言語モデルを活用する。
論文参考訳（メタデータ） (2025-07-17T06:24:20Z)
IntentionESC: An Intention-Centered Framework for Enhancing Emotional Support in Dialogue Systems [74.0855067343594]
感情的支援の会話では、意図の不明確さは、支持者に不適切な戦略を採用させる可能性がある。 Intention-centered Emotional Support Conversation frameworkを提案する。支援者の意図を定義し、これらの意図を推測するための重要な感情状態の側面を特定し、それらを適切な支援戦略にマッピングする。
論文参考訳（メタデータ） (2025-06-06T10:14:49Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。 WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文参考訳（メタデータ） (2024-11-02T15:22:26Z)
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文参考訳（メタデータ） (2024-10-07T00:22:07Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements [28.630542719519855]
本研究では,大規模言語モデル(LLM)の共感応答生成における性能について実験的に検討する。大規模な実験により, LLMは提案手法の利点を大いに生かし, 自動評価と人的評価の両方で最先端の性能を達成できることが示されている。
論文参考訳（メタデータ） (2023-10-08T12:21:24Z)
Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文参考訳（メタデータ） (2023-08-17T10:49:18Z)
Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [47.632123167141245]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。我々は,現実の文脈と人間の要求に基づく評価手法の開発をコミュニティに促す。
論文参考訳（メタデータ） (2023-06-01T00:01:43Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文参考訳（メタデータ） (2023-04-19T11:07:43Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。