Fugu-MT 論文翻訳(概要): Evaluating Subjective Cognitive Appraisals of Emotions from Large Language Models

論文の概要: Evaluating Subjective Cognitive Appraisals of Emotions from Large Language Models

arxiv url: http://arxiv.org/abs/2310.14389v1
Date: Sun, 22 Oct 2023 19:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 00:11:31.998694
Title: Evaluating Subjective Cognitive Appraisals of Emotions from Large Language Models
Title（参考訳）: 大規模言語モデルによる感情の主観的認知評価
Authors: Hongli Zhan, Desmond C. Ong, Junyi Jessy Li
Abstract要約: この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。 CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
参考スコア（独自算出の注目度）: 47.890846082224066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emotions we experience involve complex processes; besides physiological aspects, research in psychology has studied cognitive appraisals where people assess their situations subjectively, according to their own values (Scherer, 2005). Thus, the same situation can often result in different emotional experiences. While the detection of emotion is a well-established task, there is very limited work so far on the automatic prediction of cognitive appraisals. This work fills the gap by presenting CovidET-Appraisals, the most comprehensive dataset to-date that assesses 24 appraisal dimensions, each with a natural language rationale, across 241 Reddit posts. CovidET-Appraisals presents an ideal testbed to evaluate the ability of large language models -- excelling at a wide range of NLP tasks -- to automatically assess and explain cognitive appraisals. We found that while the best models are performant, open-sourced LLMs fall short at this task, presenting a new challenge in the future development of emotionally intelligent models. We release our dataset at https://github.com/honglizhan/CovidET-Appraisals-Public.
Abstract（参考訳）: 私たちが経験する感情は複雑なプロセスを伴う。生理的な側面に加えて、心理学の研究は、人々が自身の価値観に従って状況を主観的に評価する認知的評価を研究してきた(scherer, 2005)。したがって、同じ状況は、しばしば異なる感情的な経験をもたらす。感情の検出は確立された課題であるが、認知的評価の自動予測は今のところ非常に限定的な作業である。 CovidET-Appraisalsは、Redditの241の投稿で、それぞれが自然言語の理論的根拠を持つ24の評価次元を評価する、これまでで最も包括的なデータセットである。 covidet-appraisalsは、大規模な言語モデルの能力(幅広いnlpタスクをこなす)を評価し、認知的評価を自動的に評価し、説明するための理想的なテストベッドを提供する。最高のモデルではパフォーマンスがよいが、オープンソースのLLMはこのタスクに不足しており、感情的にインテリジェントなモデルの開発において新たな課題が提示されている。私たちはデータセットをhttps://github.com/honglizhan/covidet-appraisals-publicにリリースします。

関連論文リスト

CAPE: A Chinese Dataset for Appraisal-based Emotional Generation using Large Language Models [30.40159858361768]
認知評価理論に基づく感情コーパスという中国のデータセットであるCAPEを作成するための2段階の自動データ生成フレームワークを提案する。このコーパスは、多様な個人的・状況的要因を考慮し、文脈的に適切な感情的反応を伴う対話を生成する。我々の研究は、会話エージェントにおける感情表現を前進させる可能性を示し、よりニュアンスで有意義な人間とコンピュータの相互作用の道を開いた。
論文参考訳（メタデータ） (2024-10-18T03:33:18Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Large Language Models are Capable of Offering Cognitive Reappraisal, if Guided [38.11184388388781]
大規模言語モデル(LLM)は感情的サポートの新しい機会を提供する。この研究は、認知的再評価に取り組み、第一歩を踏み出す。我々は、認知的再評価反応を生成するLLMのゼロショット能力について、第一種専門家による評価を行う。
論文参考訳（メタデータ） (2024-04-01T17:56:30Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
The Confidence-Competence Gap in Large Language Models: A Cognitive Study [3.757390057317548]
大規模言語モデル(LLM)は、様々な領域にわたるパフォーマンスに対して、広く注目を集めている。我々はこれらのモデルを多様なアンケートと実世界のシナリオで活用する。この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。
論文参考訳（メタデータ） (2023-09-28T03:50:09Z)
An Appraisal-Based Chain-Of-Emotion Architecture for Affective Language Model Game Agents [0.40964539027092906]
本研究では,感情的知性課題の解決と感情のシミュレートを目的とした大規模言語モデルの能力について検討する。心理学的評価研究に基づいて,ゲーム内の感情シミュレーションのための新たな感情連鎖アーキテクチャを提示し,評価する。
論文参考訳（メタデータ） (2023-09-10T16:55:49Z)
Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文参考訳（メタデータ） (2023-08-07T15:18:30Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。