論文の概要: PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice
- arxiv url: http://arxiv.org/abs/2503.01903v1
- Date: Fri, 28 Feb 2025 12:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:15.532960
- Title: PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice
- Title(参考訳): PsychBench: LLM支援精神科臨床成績評価のための総合的および専門的ベンチマーク
- Authors: Ruoxi Wang, Shuyu Liu, Ling Zhang, Xuequan Zhu, Rui Yang, Xinzhu Zhou, Fei Wu, Zhi Yang, Cheng Jin, Gang Wang,
- Abstract要約: LLM(Large Language Models)は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。
精神科臨床現場における LLM の実用性を評価するためのベンチマークシステム PsychBench を提案する。
既存のモデルは大きな可能性を秘めているが,精神科臨床における意思決定ツールとしてはまだ不十分である。
- 参考スコア(独自算出の注目度): 20.166682569070073
- License:
- Abstract: The advent of Large Language Models (LLMs) offers potential solutions to address problems such as shortage of medical resources and low diagnostic consistency in psychiatric clinical practice. Despite this potential, a robust and comprehensive benchmarking framework to assess the efficacy of LLMs in authentic psychiatric clinical environments is absent. This has impeded the advancement of specialized LLMs tailored to psychiatric applications. In response to this gap, by incorporating clinical demands in psychiatry and clinical data, we proposed a benchmarking system, PsychBench, to evaluate the practical performance of LLMs in psychiatric clinical settings. We conducted a comprehensive quantitative evaluation of 16 LLMs using PsychBench, and investigated the impact of prompt design, chain-of-thought reasoning, input text length, and domain-specific knowledge fine-tuning on model performance. Through detailed error analysis, we identified strengths and potential limitations of the existing models and suggested directions for improvement. Subsequently, a clinical reader study involving 60 psychiatrists of varying seniority was conducted to further explore the practical benefits of existing LLMs as supportive tools for psychiatrists of varying seniority. Through the quantitative and reader evaluation, we show that while existing models demonstrate significant potential, they are not yet adequate as decision-making tools in psychiatric clinical practice. The reader study further indicates that, as an auxiliary tool, LLM could provide particularly notable support for junior psychiatrists, effectively enhancing their work efficiency and overall clinical quality. To promote research in this area, we will make the dataset and evaluation framework publicly available, with the hope of advancing the application of LLMs in psychiatric clinical settings.
- Abstract(参考訳): LLM(Large Language Models)の出現は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。
この可能性にもかかわらず、本物の精神科臨床環境におけるLSMの有効性を評価する頑健で包括的なベンチマークフレームワークは欠落している。
このことは、精神医学的応用に適した特殊なLSMの進歩を妨げている。
このギャップに対処するため,精神医学および臨床データに臨床要求を取り入れ,精神医学におけるLCMの実用的性能を評価するためのベンチマークシステムであるPsychBench を提案した。
我々は,サイコベンチを用いた16LLMの総合的定量的評価を行い,素早い設計,連鎖推論,入力テキスト長,ドメイン固有知識微調整がモデル性能に及ぼす影響について検討した。
詳細な誤差解析により、既存のモデルの強度と潜在的な限界を特定し、改善の方向性を提案する。
その後, 多様な高齢者の精神科医60名を対象に, 様々な高齢者の精神科医を支援するための支援ツールとして, 既存のLSMの実用的メリットについて検討した。
定量的および読解的評価により,既存のモデルは有意な可能性を示しているが,精神科臨床における意思決定ツールとしてはまだ不十分であることが明らかとなった。
さらに,LLMは補助的ツールとして,中年精神科医に対して特に顕著なサポートを提供し,作業効率と総合的臨床品質を効果的に向上させることが示唆された。
この分野での研究を促進するため,我々は,LLMの精神医学的臨床分野への応用を推し進めるべく,データセットと評価の枠組みを一般公開する。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World [34.35946008449027]
包括的臨床診断剤アライメントスイートである ClinicalLab を紹介する。
ClinicalLabには、エンドツーエンドの多部門間臨床診断評価ベンチマークである ClinicalBenchが含まれている。
我々は17個のLDMを評価し,その性能が各部門で大きく異なることを発見した。
論文 参考訳(メタデータ) (2024-06-19T23:44:25Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。