論文の概要: Aligning Large Language Models for Enhancing Psychiatric Interviews Through Symptom Delineation and Summarization: Pilot Study
- arxiv url: http://arxiv.org/abs/2403.17428v2
- Date: Mon, 10 Feb 2025 13:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:30.815865
- Title: Aligning Large Language Models for Enhancing Psychiatric Interviews Through Symptom Delineation and Summarization: Pilot Study
- Title(参考訳): 症状記述と要約による精神科面接促進のための大規模言語モデルの調整:パイロットスタディ
- Authors: Jae-hee So, Joonhwan Chang, Eunji Kim, Junho Na, JiYeon Choi, Jy-yong Sohn, Byung-Hoon Kim, Sang Hui Chu,
- Abstract要約: 本研究は、北朝鮮の亡命者からのカウンセリングデータを分析することにより、精神科面接の強化に焦点を当てる。
本研究は,(1)精神医学的症状を示唆する会話の一部を識別し,その症状を認識することができるか,(2)面接書に基づいてストレスや症状を要約することができるかを検討する。
- 参考スコア(独自算出の注目度): 13.77580842967173
- License:
- Abstract: Background: Advancements in large language models (LLMs) have opened new possibilities in psychiatric interviews, an underexplored area where LLMs could be valuable. This study focuses on enhancing psychiatric interviews by analyzing counseling data from North Korean defectors who have experienced trauma and mental health issues. Objective: The study investigates whether LLMs can (1) identify parts of conversations that suggest psychiatric symptoms and recognize those symptoms, and (2) summarize stressors and symptoms based on interview transcripts. Methods: LLMs are tasked with (1) extracting stressors from transcripts, (2) identifying symptoms and their corresponding sections, and (3) generating interview summaries using the extracted data. The transcripts were labeled by mental health experts for training and evaluation. Results: In the zero-shot inference setting using GPT-4 Turbo, 73 out of 102 segments demonstrated a recall mid-token distance d < 20 in identifying symptom-related sections. For recognizing specific symptoms, fine-tuning outperformed zero-shot inference, achieving an accuracy, precision, recall, and F1-score of 0.82. For the generative summarization task, LLMs using symptom and stressor information scored highly on G-Eval metrics: coherence (4.66), consistency (4.73), fluency (2.16), and relevance (4.67). Retrieval-augmented generation showed no notable performance improvement. Conclusions: LLMs, with fine-tuning or appropriate prompting, demonstrated strong accuracy (over 0.8) for symptom delineation and achieved high coherence (4.6+) in summarization. This study highlights their potential to assist mental health practitioners in analyzing psychiatric interviews.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)の進歩は、LLMが価値のある未調査領域である精神医学的な面接において、新たな可能性を開く。
本研究は、外傷や精神疾患を経験した北朝鮮の亡命者からのカウンセリングデータを分析することにより、精神科面接の強化に焦点を当てる。
目的:本研究は,(1)精神医学的症状を示唆する会話の一部を識別し,その症状を認識できるか否かを考察し,(2)面接書に基づいてストレスや症状を要約する。
方法:(1)転写物からストレスターを抽出し,(2)症状とその対応する部位を同定し,(3)抽出したデータを用いてインタビュー要約を生成する。
書き起こしは精神保健の専門家によって訓練と評価のためにラベル付けされた。
結果: GPT-4 Turbo を用いたゼロショット推論では,102セグメント中73セグメントが症状関連部位の同定において,リコール中距離d<20。
特定の症状を認識するためには、微調整によるゼロショット推論が優れ、精度、精度、リコール、F1スコアは0.82である。
累積要約タスクでは、コヒーレンス(4.66)、一貫性(4.73)、流速(2.16)、関連性(4.67)といったG-Evalの指標に基づいて、症状およびストレス情報を用いたLCMを高く評価した。
検索拡張世代は、顕著な性能改善は示さなかった。
結論: LLMは、微調整または適切なプロンプトにより、症状のデライン化に対して強い精度(0.8以上)を示し、要約において高いコヒーレンス(4.6+)を達成した。
本研究は,精神科の面接の分析において,メンタルヘルスの実践者を支援する可能性を強調した。
関連論文リスト
- Enhanced Large Language Models for Effective Screening of Depression and Anxiety [44.81045754697482]
本稿では,臨床面接を合成するためのパイプラインを導入し,対話型対話を1,157件紹介する(PsyInterview)。
EmoScanは、粗末(不安やうつ病など)と微妙な障害(うつ病など)を区別し、高品質な面接を行う。
論文 参考訳(メタデータ) (2025-01-15T12:42:09Z) - Investigating Large Language Models in Inferring Personality Traits from User Conversations [5.705775078773656]
大規模言語モデル(LLM)は、多様なドメインにまたがる目覚ましい人間のような能力を示している。
本研究は, GPT-4o と GPT-4o mini が, ビッグファイブの性格特性を推測し, ユーザの会話から BFI-10 項目のスコアを生成できるかどうかを評価する。
論文 参考訳(メタデータ) (2025-01-13T18:09:58Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - MentaLLaMA: Interpretable Mental Health Analysis on Social Media with
Large Language Models [28.62967557368565]
ソーシャルメディア上に,最初のマルチタスクおよびマルチソース解釈可能なメンタルヘルスインストラクションデータセットを構築した。
専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。
IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、メンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。
論文 参考訳(メタデータ) (2023-09-24T06:46:08Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。