論文の概要: Mitigating Semantic Drift: Evaluating LLMs' Efficacy in Psychotherapy through MI Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2511.22818v1
- Date: Fri, 28 Nov 2025 00:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.735029
- Title: Mitigating Semantic Drift: Evaluating LLMs' Efficacy in Psychotherapy through MI Dialogue Summarization
- Title(参考訳): セマンティックドリフトの緩和:MI対話要約による心理療法におけるLLMsの有効性の評価
- Authors: Vivek Kumar, Pushpraj Singh Rajawat, Eirini Ntoutsi,
- Abstract要約: 本研究は,心理療法における大規模言語モデル(LLM)の有効性を評価するために,混合メソドス法を用いている。
LLMを用いて、モチベーションインタビュー(MI)対話の正確な要約を生成し、2段階のアノテーションスキームを設計する。
エキスパートアノテートMI対話を基礎となる真実として,多クラス分類タスクを定式化し,プログレッシブプロンプト手法によるモデル性能の評価を行う。
- 参考スコア(独自算出の注目度): 1.877929053436765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shown their potential across both general and domain-specific tasks. However, there is a growing concern regarding their lack of sensitivity, factual incorrectness in responses, inconsistent expressions of empathy, bias, hallucinations, and overall inability to capture the depth and complexity of human understanding, especially in low-resource and sensitive domains such as psychology. To address these challenges, our study employs a mixed-methods approach to evaluate the efficacy of LLMs in psychotherapy. We use LLMs to generate precise summaries of motivational interviewing (MI) dialogues and design a two-stage annotation scheme based on key components of the Motivational Interviewing Treatment Integrity (MITI) framework, namely evocation, collaboration, autonomy, direction, empathy, and a non-judgmental attitude. Using expert-annotated MI dialogues as ground truth, we formulate multi-class classification tasks to assess model performance under progressive prompting techniques, incorporating one-shot and few-shot prompting. Our results offer insights into LLMs' capacity for understanding complex psychological constructs and highlight best practices to mitigate ``semantic drift" in therapeutic settings. Our work contributes not only to the MI community by providing a high-quality annotated dataset to address data scarcity in low-resource domains but also critical insights for using LLMs for precise contextual interpretation in complex behavioral therapy.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、一般的なタスクとドメイン固有のタスクの両方にその可能性を示している。
しかし、その感度の欠如、反応の事実的誤り、共感、偏見、幻覚の矛盾した表現、そして人間の理解の深さと複雑さ、特に心理学のような低リソースでセンシティブな領域を捉えることができないという懸念が高まっている。
これらの課題に対処するために、精神療法におけるLSMの有効性を評価するために、混合メソドス法を用いている。
LLMを用いて、モチベーション面接(MI)対話の正確な要約を作成し、モチベーション面接処理統合(MITI)フレームワークのキーコンポーネント、すなわち、実行、協調、自律、方向、共感、非判断的態度に基づく2段階のアノテーションスキームを設計する。
プログレッシブプロンプト技術の下でモデル性能を評価するために,専門家によるMI対話を基礎的真理として用い,一発と小発のプロンプトを取り入れた多クラス分類タスクを定式化する。
以上の結果から,LLMの複雑な心理的構造を理解する能力について考察し,治療環境における「セマンティックドリフト」を緩和するためのベストプラクティスを強調した。
我々の研究は、低リソース領域におけるデータの不足に対処する高品質なアノテートデータセットを提供することによって、MIコミュニティに貢献するだけでなく、複雑な行動療法における正確な文脈解釈にLLMを使用することにも重要な洞察を与える。
関連論文リスト
- Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [72.36715571932696]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Unlocking LLMs: Addressing Scarce Data and Bias Challenges in Mental Health [8.703482957316107]
大規模言語モデル(LLM)は、医療分析において有望な能力を示しているが、幻覚、オウム、偏見の顕在化といったいくつかの課題に直面している。
IC-AnnoMI(IC-AnnoMI)は、AnnoMI上に構築された、専門家によるモチベーションインタビュー(MI)データセットである。
IC-AnnoMIは、治療スタイル(共感、反射)、文脈的関連性、偽の意味変化を考慮に入れ、キューや調整された情報を通じて正確に設計されたターゲットプロンプトを使用する。
論文 参考訳(メタデータ) (2024-12-17T15:01:07Z) - PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models [10.258261180305439]
大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。
LLMは受動的センシングシステムとジャスト・イン・タイム・イン・タイム・イン・イン・介入システムとの統合を通じて、分野を前進させる可能性を提供する。
本研究は, 言語, 文脈内学習, 推論能力を活用した緩和ケアコミュニケーションの質評価手法としてLLMについて検討する。
論文 参考訳(メタデータ) (2024-09-23T16:39:12Z) - Rethinking the Alignment of Psychotherapy Dialogue Generation with Motivational Interviewing Strategies [30.237161801912453]
大規模言語モデル(LLM)は、特にモチベーション・インタビュー(MI)の文脈において、精神療法的対話を生み出すことを約束している。
MI戦略をMIスキルのセットとして適用することで、説明可能性を備えたより制御可能な治療に順応した会話が実現可能となる。
論文 参考訳(メタデータ) (2024-08-12T23:19:02Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [7.665475687919995]
ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。
LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Evaluating the Efficacy of Interactive Language Therapy Based on LLM for
High-Functioning Autistic Adolescent Psychological Counseling [1.1780706927049207]
本研究では,高機能自閉症青年に対する対話型言語治療におけるLarge Language Models(LLMs)の有効性について検討した。
LLMは、従来の心理学的カウンセリング手法を強化する新しい機会を提供する。
論文 参考訳(メタデータ) (2023-11-12T07:55:39Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。