論文の概要: The Pursuit of Empathy: Evaluating Small Language Models for PTSD Dialogue Support
- arxiv url: http://arxiv.org/abs/2505.15065v1
- Date: Wed, 21 May 2025 03:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.844158
- Title: The Pursuit of Empathy: Evaluating Small Language Models for PTSD Dialogue Support
- Title(参考訳): 共感の探索:PTSD対話支援のための小言語モデルの評価
- Authors: Suhas BN, Yash Mahajan, Dominik Mattioli, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah,
- Abstract要約: TIDEは500種類のPTSDクライアントペルソナにまたがる1万の2ターン対話のデータセットである。
PTSDを専門とする臨床心理学者により,すべてのシナリオと基準応答について,リアリズムとトラウマ感受性について検討した。
IRBが承認した人的評価と自動測定は、微調整は一般的に共感を改善するが、利得はシナリオとユーザに依存していることを示している。
- 参考スコア(独自算出の注目度): 10.942749627086476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can small language models with 0.5B to 5B parameters meaningfully engage in trauma-informed, empathetic dialogue for individuals with PTSD? We address this question by introducing TIDE, a dataset of 10,000 two-turn dialogues spanning 500 diverse PTSD client personas and grounded in a three-factor empathy model: emotion recognition, distress normalization, and supportive reflection. All scenarios and reference responses were reviewed for realism and trauma sensitivity by a clinical psychologist specializing in PTSD. We evaluate eight small language models before and after fine-tuning, comparing their outputs to a frontier model (Claude Sonnet 3.5). Our IRB-approved human evaluation and automatic metrics show that fine-tuning generally improves perceived empathy, but gains are highly scenario- and user-dependent, with smaller models facing an empathy ceiling. Demographic analysis shows older adults value distress validation and graduate-educated users prefer nuanced replies, while gender effects are minimal. We highlight the limitations of automatic metrics and the need for context- and user-aware system design. Our findings, along with the planned release of TIDE, provide a foundation for building safe, resource-efficient, and ethically sound empathetic AI to supplement, not replace, clinical mental health care.
- Abstract(参考訳): 0.5Bから5Bパラメータを持つ小言語モデルはPTSD患者に対するトラウマ・インフォームド・共感的対話に有意に関与できるか?
TIDEは、500種類のPTSDクライアントペルソナにまたがる1万件の2ターン対話のデータセットで、3要素の共感モデル(感情認識、苦悩の正規化、サポート的リフレクション)に基礎を置いている。
PTSDを専門とする臨床心理学者により,すべてのシナリオと基準応答について,リアリズムとトラウマ感受性について検討した。
細調整前後の8つの小言語モデルを評価し,その出力をフロンティアモデルと比較した(Claude Sonnet 3.5)。
IRBが承認した人的評価と自動測定では、微調整は一般的に共感を改善するが、利得は高いシナリオとユーザ依存であり、小さなモデルは共感天井に面している。
デモグラフィー分析では、高齢者の苦悩の検証と卒業教育を受けたユーザーはニュアンスな回答を好むが、性別効果は最小限である。
自動メトリクスの限界と、コンテキストとユーザ対応のシステム設計の必要性を強調します。
我々の発見は、TIDEの計画されたリリースとともに、安全でリソース効率が高く倫理的に健全な共感的AIを構築する基盤を提供し、臨床精神医療を補完し、置き換えるのではなく、補うことができる。
関連論文リスト
- Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - Modeling Challenging Patient Interactions: LLMs for Medical Communication Training [39.67477471073807]
本研究は,患者とのコミュニケーションスタイルをシミュレートするためのLarge Language Models (LLMs) を提案する。
感情的・会話的特徴を具現化した仮想患者(VP)を開発した。
医療専門家はこれらのVPを評価し、信頼度(3.8 pm 1.0$;合理化:3.7 pm 0.8$)を評価し、彼らのスタイルを正確に識別した。
論文 参考訳(メタデータ) (2025-03-28T09:04:10Z) - Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文 参考訳(メタデータ) (2024-06-18T14:51:54Z) - EmpBot: A T5-based Empathetic Chatbot focusing on Sentiments [75.11753644302385]
共感的会話エージェントは、議論されていることを理解しているだけでなく、会話相手の暗黙の感情も認識すべきである。
変圧器事前学習言語モデル(T5)に基づく手法を提案する。
本研究では,自動計測と人的評価の両方を用いて,情緒的ダイアログデータセットを用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-30T19:04:48Z) - World Trade Center responders in their own words: Predicting PTSD
symptom trajectories with AI-based language analyses of interviews [6.700088567524812]
本研究は、応答者間のPTSD症状の軌跡を予測するためのAIに基づく言語アセスメントの能力を検証した。
横断的に、より大きな抑うつ言語(beta=0.32; p43)と一対一の特異な使用(beta=0.31; p44)は、症状の重症度の増加に関連していた。
長文使用率 (beta=-0.36; p7) と長文使用率 (beta=-0.36; p7) は改善を予測した。
論文 参考訳(メタデータ) (2020-11-12T15:57:23Z) - LAXARY: A Trustworthy Explainable Twitter Analysis Model for
Post-Traumatic Stress Disorder Assessment [1.776746672434207]
本稿では,TwitterユーザのPTSDアセスメントを検知し,表現するためのLAXARYモデルを提案する。
まず,臨床検査ツールを用いて実Twitterユーザから臨床PTSD評価データを収集する。
そして、PTSD言語辞書と機械学習モデルを用いて、PTSDステータスと対応するTwitterユーザの強度を検出するための調査ツールを埋める。
論文 参考訳(メタデータ) (2020-03-16T20:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。