論文の概要: H2HTalk: Evaluating Large Language Models as Emotional Companion
- arxiv url: http://arxiv.org/abs/2507.03543v1
- Date: Fri, 04 Jul 2025 12:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.774916
- Title: H2HTalk: Evaluating Large Language Models as Emotional Companion
- Title(参考訳): H2HTalk: 感情的コンパニオンとしての大規模言語モデルの評価
- Authors: Boyang Wang, Yalun Wu, Hongcheng Guo, Zhoujun Li,
- Abstract要約: H2HTalk(Heart-to-Heart Talk)は、人格発達と共感的相互作用の相性を評価するベンチマークである。
H2HTalkは、対話、再コンパイル、そして現実世界のサポート会話を反映する反復計画にまたがる4,650のキュレートされたシナリオを特徴としている。
- 参考スコア(独自算出の注目度): 21.032925116914345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As digital emotional support needs grow, Large Language Model companions offer promising authentic, always-available empathy, though rigorous evaluation lags behind model advancement. We present Heart-to-Heart Talk (H2HTalk), a benchmark assessing companions across personality development and empathetic interaction, balancing emotional intelligence with linguistic fluency. H2HTalk features 4,650 curated scenarios spanning dialogue, recollection, and itinerary planning that mirror real-world support conversations, substantially exceeding previous datasets in scale and diversity. We incorporate a Secure Attachment Persona (SAP) module implementing attachment-theory principles for safer interactions. Benchmarking 50 LLMs with our unified protocol reveals that long-horizon planning and memory retention remain key challenges, with models struggling when user needs are implicit or evolve mid-conversation. H2HTalk establishes the first comprehensive benchmark for emotionally intelligent companions. We release all materials to advance development of LLMs capable of providing meaningful and safe psychological support.
- Abstract(参考訳): デジタル感情サポートが成長するにつれて、Large Language Modelの仲間は、モデル進歩の遅れに厳格な評価ラグはあるものの、有望で常に利用可能な共感を提供する。
H2HTalk(Heart-to-Heart Talk)は、人格発達と共感的相互作用にまたがって、感情知と言語流感のバランスをとる指標である。
H2HTalkは、対話、再コンパイル、および実際のサポート会話をミラーする反復計画にまたがる4,650のキュレートされたシナリオを特徴としている。
安全なインタラクションのためのアタッチメント理論の原則を実装したセキュアアタッチメントペルソナ(SAP)モジュールを組み込んだ。
統合プロトコルで50 LLMをベンチマークした結果,ユーザニーズが暗黙的あるいは会話の途中で進化している場合,長期計画とメモリ保持が重要な課題であることが明らかとなった。
H2HTalkは感情的に知的な仲間のための最初の包括的なベンチマークを確立している。
我々は、有意義で安全な心理的支援を提供するLLMの開発を進めるために、すべての材料を放出する。
関連論文リスト
- Are You Listening to Me? Fine-Tuning Chatbots for Empathetic Dialogue [0.5849783371898033]
感情的にリッチなインタラクションを生成するタスクにおいて,Large Language Models (LLM) がどのように反応するかを検討する。
本研究では,感情分析(VADER)と専門家評価の両方を用いて,対話の感情的進行を分析した。
論文 参考訳(メタデータ) (2025-07-03T11:32:41Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Harnessing Large Language Models' Empathetic Response Generation
Capabilities for Online Mental Health Counselling Support [1.9336815376402723]
大規模言語モデル(LLM)は、様々な情報検索や推論タスクで顕著なパフォーマンスを示している。
本研究は,メンタルヘルスカウンセリング環境下での会話において,共感反応を誘発するLLMの能力について検討した。
我々は、ジェネレーティブ・プレトレーニング(GPT)のバージョン3.5とバージョン4、Vicuna FastChat-T5、Pathways Language Model(PaLM)バージョン2、Falcon-7B-Instructの5つのLCMを選択した。
論文 参考訳(メタデータ) (2023-10-12T03:33:06Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support [26.443929802292807]
大規模で現実的なマルチターン会話は、メンタルヘルスサポートの進歩を促進する可能性がある。
SMILE(シングルターンからマルチターンインクルーシブ言語拡張技術)を紹介する。
我々は,55kの対話からなるSMILECHATという,大規模で生活型,多様な対話データセットを生成する。
論文 参考訳(メタデータ) (2023-04-30T11:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。