論文の概要: Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry
- arxiv url: http://arxiv.org/abs/2509.09711v1
- Date: Sun, 07 Sep 2025 20:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.836501
- Title: Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry
- Title(参考訳): 精神科ベンチ:精神医学におけるLCMのマルチタスクベンチマーク
- Authors: Aya E. Fouda, Abdelrahamn A. Hassan, Radwa J. Hanafy, Mohammed E. Fouda,
- Abstract要約: PsychiatryBenchは、専門家が検証した精神医学の教科書とケースブックにのみ基づく厳格にキュレートされたベンチマークである。
精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。
- 参考スコア(独自算出の注目度): 1.2879523047871226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) hold great promise in enhancing psychiatric practice, from improving diagnostic accuracy to streamlining clinical documentation and therapeutic support. However, existing evaluation resources heavily rely on small clinical interview corpora, social media posts, or synthetic dialogues, which limits their clinical validity and fails to capture the full complexity of psychiatric reasoning. In this work, we introduce PsychiatryBench, a rigorously curated benchmark grounded exclusively in authoritative, expert-validated psychiatric textbooks and casebooks. PsychiatryBench comprises eleven distinct question-answering tasks ranging from diagnostic reasoning and treatment planning to longitudinal follow-up, management planning, clinical approach, sequential case analysis, and multiple-choice/extended matching formats totaling over 5,300 expert-annotated items. We evaluate a diverse set of frontier LLMs (including Google Gemini, DeepSeek, LLaMA 3, and QWQ-32) alongside leading open-source medical models (e.g., OpenBiloLLM, MedGemma) using both conventional metrics and an "LLM-as-judge" similarity scoring framework. Our results reveal substantial gaps in clinical consistency and safety, particularly in multi-turn follow-up and management tasks, underscoring the need for specialized model tuning and more robust evaluation paradigms. PsychiatryBench offers a modular, extensible platform for benchmarking and improving LLM performance in high-stakes mental health applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、診断精度の向上から臨床文書の合理化、治療支援まで、精神医学的な実践の強化に大いに貢献する。
しかし、既存の評価資源は、小さな臨床面接コーパス、ソーシャルメディア投稿、または合成対話に大きく依存しており、その臨床的妥当性を制限し、精神医学的推論の完全な複雑さを捉えることができない。
本研究は,権威的,専門家公認の精神医学教科書とケースブックにのみ基づいた,厳格にキュレートされたベンチマークである PsychiatryBench を紹介する。
精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。
Google Gemini, DeepSeek, LLaMA 3, QWQ-32 など,さまざまなフロンティア LLM を,従来の指標と "LLM-as-judge" 類似性評価フレームワークを用いて,主要なオープンソース医療モデル(例: OpenBiloLLM, MedGemma)とともに評価した。
以上の結果から,特にマルチターンフォローアップおよびマネジメントタスクにおいて,臨床の整合性と安全性に大きなギャップがみられ,専門モデルチューニングやより堅牢な評価パラダイムの必要性が浮き彫りにされている。
PsychiatryBenchは、高度なメンタルヘルスアプリケーションでLLMのパフォーマンスをベンチマークし改善するための、モジュラーで拡張可能なプラットフォームを提供する。
関連論文リスト
- Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [17.809187205107232]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
このパイプラインは現実世界のメンタルヘルスポストを処理し、マルチターン対話構造を生成する。
厳密な多次元フィルタリングは、高品質で臨床的に整合した対話データを生成する。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice [20.166682569070073]
LLM(Large Language Models)は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。
精神科臨床現場における LLM の実用性を評価するためのベンチマークシステム PsychBench を提案する。
既存のモデルは大きな可能性を秘めているが,精神科臨床における意思決定ツールとしてはまだ不十分である。
論文 参考訳(メタデータ) (2025-02-28T12:17:41Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。