Fugu-MT 論文翻訳(概要): Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry

論文の概要: Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry

arxiv url: http://arxiv.org/abs/2509.09711v1
Date: Sun, 07 Sep 2025 20:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-15 16:03:07.836501
Title: Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry
Title（参考訳）: 精神科ベンチ:精神医学におけるLCMのマルチタスクベンチマーク
Authors: Aya E. Fouda, Abdelrahamn A. Hassan, Radwa J. Hanafy, Mohammed E. Fouda,
Abstract要約: PsychiatryBenchは、専門家が検証した精神医学の教科書とケースブックにのみ基づく厳格にキュレートされたベンチマークである。精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。
参考スコア（独自算出の注目度）: 1.2879523047871226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) hold great promise in enhancing psychiatric practice, from improving diagnostic accuracy to streamlining clinical documentation and therapeutic support. However, existing evaluation resources heavily rely on small clinical interview corpora, social media posts, or synthetic dialogues, which limits their clinical validity and fails to capture the full complexity of psychiatric reasoning. In this work, we introduce PsychiatryBench, a rigorously curated benchmark grounded exclusively in authoritative, expert-validated psychiatric textbooks and casebooks. PsychiatryBench comprises eleven distinct question-answering tasks ranging from diagnostic reasoning and treatment planning to longitudinal follow-up, management planning, clinical approach, sequential case analysis, and multiple-choice/extended matching formats totaling over 5,300 expert-annotated items. We evaluate a diverse set of frontier LLMs (including Google Gemini, DeepSeek, LLaMA 3, and QWQ-32) alongside leading open-source medical models (e.g., OpenBiloLLM, MedGemma) using both conventional metrics and an "LLM-as-judge" similarity scoring framework. Our results reveal substantial gaps in clinical consistency and safety, particularly in multi-turn follow-up and management tasks, underscoring the need for specialized model tuning and more robust evaluation paradigms. PsychiatryBench offers a modular, extensible platform for benchmarking and improving LLM performance in high-stakes mental health applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、診断精度の向上から臨床文書の合理化、治療支援まで、精神医学的な実践の強化に大いに貢献する。しかし、既存の評価資源は、小さな臨床面接コーパス、ソーシャルメディア投稿、または合成対話に大きく依存しており、その臨床的妥当性を制限し、精神医学的推論の完全な複雑さを捉えることができない。本研究は,権威的,専門家公認の精神医学教科書とケースブックにのみ基づいた,厳格にキュレートされたベンチマークである PsychiatryBench を紹介する。精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。 Google Gemini, DeepSeek, LLaMA 3, QWQ-32 など,さまざまなフロンティア LLM を,従来の指標と "LLM-as-judge" 類似性評価フレームワークを用いて,主要なオープンソース医療モデル(例: OpenBiloLLM, MedGemma)とともに評価した。以上の結果から,特にマルチターンフォローアップおよびマネジメントタスクにおいて,臨床の整合性と安全性に大きなギャップがみられ,専門モデルチューニングやより堅牢な評価パラダイムの必要性が浮き彫りにされている。 PsychiatryBenchは、高度なメンタルヘルスアプリケーションでLLMのパフォーマンスをベンチマークし改善するための、モジュラーで拡張可能なプラットフォームを提供する。

関連論文リスト

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation [5.601620793903095]
精神科相談のための統合的調査・診断強化学習フレームワーク MIND を提案する。具体的には,会話コンテキストを臨床検索状態に要約するクリテリア・グラウンド精神医学推論銀行(PRB)を構築した。この基礎の上に構築されたMINDは、中間決定ステップに対するきめ細かい監督を提供するために、ルーリックベースのプロセス報酬による明確な臨床推論を強制する。
論文参考訳（メタデータ） (2026-03-04T03:05:38Z)
LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis [14.82377002030236]
精神疾患は世界中で広く普及している。精神科医の不足と面接に基づく診断の固有の主観性は、タイムリーで一貫した精神的健康評価に重大な障壁をもたらす。大規模マルチエージェントベンチマークであるLingxiDiagBenchを提案する。
論文参考訳（メタデータ） (2026-02-10T03:46:05Z)
MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文参考訳（メタデータ） (2026-01-16T02:32:07Z)
MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文参考訳（メタデータ） (2026-01-06T13:56:33Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。 Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文参考訳（メタデータ） (2025-08-29T08:58:39Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。 MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文参考訳（メタデータ） (2025-06-04T09:18:25Z)
Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [17.809187205107232]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。このパイプラインは現実世界のメンタルヘルスポストを処理し、マルチターン対話構造を生成する。厳密な多次元フィルタリングは、高品質で臨床的に整合した対話データを生成する。
論文参考訳（メタデータ） (2025-05-21T16:24:49Z)
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。 MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文参考訳（メタデータ） (2025-05-16T18:21:52Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice [20.166682569070073]
LLM(Large Language Models)は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。精神科臨床現場における LLM の実用性を評価するためのベンチマークシステム PsychBench を提案する。既存のモデルは大きな可能性を秘めているが,精神科臨床における意思決定ツールとしてはまだ不十分である。
論文参考訳（メタデータ） (2025-02-28T12:17:41Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文参考訳（メタデータ） (2023-10-17T13:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。