論文の概要: Aligning Large Language Models for Enhancing Psychiatric Interviews Through Symptom Delineation and Summarization: Pilot Study
- arxiv url: http://arxiv.org/abs/2403.17428v2
- Date: Mon, 10 Feb 2025 13:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:30.815865
- Title: Aligning Large Language Models for Enhancing Psychiatric Interviews Through Symptom Delineation and Summarization: Pilot Study
- Title(参考訳): 症状記述と要約による精神科面接促進のための大規模言語モデルの調整:パイロットスタディ
- Authors: Jae-hee So, Joonhwan Chang, Eunji Kim, Junho Na, JiYeon Choi, Jy-yong Sohn, Byung-Hoon Kim, Sang Hui Chu,
- Abstract要約: 本研究は、北朝鮮の亡命者からのカウンセリングデータを分析することにより、精神科面接の強化に焦点を当てる。
本研究は,(1)精神医学的症状を示唆する会話の一部を識別し,その症状を認識することができるか,(2)面接書に基づいてストレスや症状を要約することができるかを検討する。
- 参考スコア(独自算出の注目度): 13.77580842967173
- License:
- Abstract: Background: Advancements in large language models (LLMs) have opened new possibilities in psychiatric interviews, an underexplored area where LLMs could be valuable. This study focuses on enhancing psychiatric interviews by analyzing counseling data from North Korean defectors who have experienced trauma and mental health issues. Objective: The study investigates whether LLMs can (1) identify parts of conversations that suggest psychiatric symptoms and recognize those symptoms, and (2) summarize stressors and symptoms based on interview transcripts. Methods: LLMs are tasked with (1) extracting stressors from transcripts, (2) identifying symptoms and their corresponding sections, and (3) generating interview summaries using the extracted data. The transcripts were labeled by mental health experts for training and evaluation. Results: In the zero-shot inference setting using GPT-4 Turbo, 73 out of 102 segments demonstrated a recall mid-token distance d < 20 in identifying symptom-related sections. For recognizing specific symptoms, fine-tuning outperformed zero-shot inference, achieving an accuracy, precision, recall, and F1-score of 0.82. For the generative summarization task, LLMs using symptom and stressor information scored highly on G-Eval metrics: coherence (4.66), consistency (4.73), fluency (2.16), and relevance (4.67). Retrieval-augmented generation showed no notable performance improvement. Conclusions: LLMs, with fine-tuning or appropriate prompting, demonstrated strong accuracy (over 0.8) for symptom delineation and achieved high coherence (4.6+) in summarization. This study highlights their potential to assist mental health practitioners in analyzing psychiatric interviews.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)の進歩は、LLMが価値のある未調査領域である精神医学的な面接において、新たな可能性を開く。
本研究は、外傷や精神疾患を経験した北朝鮮の亡命者からのカウンセリングデータを分析することにより、精神科面接の強化に焦点を当てる。
目的:本研究は,(1)精神医学的症状を示唆する会話の一部を識別し,その症状を認識できるか否かを考察し,(2)面接書に基づいてストレスや症状を要約する。
方法:(1)転写物からストレスターを抽出し,(2)症状とその対応する部位を同定し,(3)抽出したデータを用いてインタビュー要約を生成する。
書き起こしは精神保健の専門家によって訓練と評価のためにラベル付けされた。
結果: GPT-4 Turbo を用いたゼロショット推論では,102セグメント中73セグメントが症状関連部位の同定において,リコール中距離d<20。
特定の症状を認識するためには、微調整によるゼロショット推論が優れ、精度、精度、リコール、F1スコアは0.82である。
累積要約タスクでは、コヒーレンス(4.66)、一貫性(4.73)、流速(2.16)、関連性(4.67)といったG-Evalの指標に基づいて、症状およびストレス情報を用いたLCMを高く評価した。
検索拡張世代は、顕著な性能改善は示さなかった。
結論: LLMは、微調整または適切なプロンプトにより、症状のデライン化に対して強い精度(0.8以上)を示し、要約において高いコヒーレンス(4.6+)を達成した。
本研究は,精神科の面接の分析において,メンタルヘルスの実践者を支援する可能性を強調した。
関連論文リスト
- NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - Mitigating Hallucinations Using Ensemble of Knowledge Graph and Vector Store in Large Language Models to Enhance Mental Health Support [0.0]
この研究は、大規模言語モデル(LLM)における幻覚の顕在化を深く研究している。
主な目的は、幻覚の発生を抑える効果的な戦略を明らかにすることである。
論文 参考訳(メタデータ) (2024-10-06T14:26:37Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Can AI Relate: Testing Large Language Model Response for Mental Health Support [23.97212082563385]
大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。
精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
論文 参考訳(メタデータ) (2024-05-20T13:42:27Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Large Language Model for Mental Health: A Systematic Review [2.9429776664692526]
大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている。
この体系的なレビューは、早期スクリーニング、デジタル介入、臨床応用におけるその強みと限界に焦点を当てている。
論文 参考訳(メタデータ) (2024-02-19T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。