論文の概要: When Large Language Models are Reliable for Judging Empathic Communication
- arxiv url: http://arxiv.org/abs/2506.10150v1
- Date: Wed, 11 Jun 2025 20:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.428974
- Title: When Large Language Models are Reliable for Judging Empathic Communication
- Title(参考訳): 大規模言語モデルが共感的コミュニケーションの判断に信頼性がある場合
- Authors: Aakriti Kumar, Nalin Poungpeth, Diyi Yang, Erina Farrell, Bruce Lambert, Matthew Groh,
- Abstract要約: 大規模言語モデル(LLM)は、テキストベースの会話において共感的な応答を生成するのに優れている。
共感コミュニケーションのニュアンスをどの程度確実に判断できるか?
我々は、専門家、クラウドワーカー、LLMが4つの評価フレームワーク間で共感的なコミュニケーションを注釈する方法について比較する。
- 参考スコア(独自算出の注目度): 41.01696584595341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at generating empathic responses in text-based conversations. But, how reliably do they judge the nuances of empathic communication? We investigate this question by comparing how experts, crowdworkers, and LLMs annotate empathic communication across four evaluative frameworks drawn from psychology, natural language processing, and communications applied to 200 real-world conversations where one speaker shares a personal problem and the other offers support. Drawing on 3,150 expert annotations, 2,844 crowd annotations, and 3,150 LLM annotations, we assess inter-rater reliability between these three annotator groups. We find that expert agreement is high but varies across the frameworks' sub-components depending on their clarity, complexity, and subjectivity. We show that expert agreement offers a more informative benchmark for contextualizing LLM performance than standard classification metrics. Across all four frameworks, LLMs consistently approach this expert level benchmark and exceed the reliability of crowdworkers. These results demonstrate how LLMs, when validated on specific tasks with appropriate benchmarks, can support transparency and oversight in emotionally sensitive applications including their use as conversational companions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストベースの会話において共感的な応答を生成するのに優れている。
しかし、共感的なコミュニケーションのニュアンスを確実に判断できるだろうか?
本研究では, 専門家, クラウドワーカー, LLMが, 心理, 自然言語処理, コミュニケーションから引き出された4つの評価フレームワーク間での共感的コミュニケーションを, 一人の話者が個人的な問題を共有し, もう一人の話者が支援を提供する200の現実世界の会話に適用する方法について比較検討する。
3,150のエキスパートアノテーション,2,844のクラウドアノテーション,3,150のLDMアノテーションに基づいて,これら3つのアノテータグループ間のラッタ間信頼性を評価した。
専門家の合意は高いが、その明確さ、複雑さ、主観性によって、フレームワークのサブコンポーネントによって異なります。
専門家合意は、標準分類基準よりも、LLM性能を文脈的に評価するための、より有意義なベンチマークを提供することを示す。
4つのフレームワーク全体で、LLMはこのエキスパートレベルのベンチマークに一貫してアプローチし、クラウドワーカーの信頼性を上回る。
これらの結果は、LLMが特定のタスクに対して適切なベンチマークで検証された場合、会話コンパニオンとしての使用を含む感情に敏感なアプリケーションの透明性と監視をいかにサポートするかを示す。
関連論文リスト
- Amulet: Putting Complex Multi-Turn Conversations on the Stand with LLM Juries [30.095571420819912]
アミュレット(Amulet)は、LLM-judgesの精度を向上させるために、ダイアログアクトと最大値という関連する言語概念を活用するフレームワークである。
Amulet は、単一の LLM にフレームワークを適用することで審査員として、あるいは異なる LLM の審査員と陪審員に統合することで、使用することができる。
論文 参考訳(メタデータ) (2025-05-26T18:46:38Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。