論文の概要: Moving Beyond Medical Exam Questions: A Clinician-Annotated Dataset of Real-World Tasks and Ambiguity in Mental Healthcare
- arxiv url: http://arxiv.org/abs/2502.16051v1
- Date: Sat, 22 Feb 2025 03:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:35.730415
- Title: Moving Beyond Medical Exam Questions: A Clinician-Annotated Dataset of Real-World Tasks and Ambiguity in Mental Healthcare
- Title(参考訳): 精神医療における実世界の課題とあいまいさのクリニカル・アノテートデータセット
- Authors: Max Lamparth, Declan Grabb, Amy Franks, Scott Gershan, Kaitlyn N. Kunstman, Aaron Lulla, Monika Drummond Roots, Manu Sharma, Aryan Shrivastava, Nina Vasan, Colleen Waickman,
- Abstract要約: 精神医療における5つの重要な意思決定領域にまたがる専門家による注釈付きデータセットを提案する。
このデータセットは、微妙な臨床推論と、メンタルヘルス実践者が遭遇する日々のあいまいさを捉えるように設計されている。
- 参考スコア(独自算出の注目度): 0.0545520830707066
- License:
- Abstract: Current medical language model (LM) benchmarks often over-simplify the complexities of day-to-day clinical practice tasks and instead rely on evaluating LMs on multiple-choice board exam questions. Thus, we present an expert-created and annotated dataset spanning five critical domains of decision-making in mental healthcare: treatment, diagnosis, documentation, monitoring, and triage. This dataset - created without any LM assistance - is designed to capture the nuanced clinical reasoning and daily ambiguities mental health practitioners encounter, reflecting the inherent complexities of care delivery that are missing from existing datasets. Almost all 203 base questions with five answer options each have had the decision-irrelevant demographic patient information removed and replaced with variables (e.g., AGE), and are available for male, female, or non-binary-coded patients. For question categories dealing with ambiguity and multiple valid answer options, we create a preference dataset with uncertainties from the expert annotations. We outline a series of intended use cases and demonstrate the usability of our dataset by evaluating eleven off-the-shelf and four mental health fine-tuned LMs on category-specific task accuracy, on the impact of patient demographic information on decision-making, and how consistently free-form responses deviate from human annotated samples.
- Abstract(参考訳): 現在の医療言語モデル(LM)ベンチマークは、日々の診療業務の複雑さを過度に単純化し、代わりに、複数選択の試験問題に対するLMの評価に頼っていることが多い。
そこで我々は、精神医療における5つの重要な意思決定領域(治療、診断、ドキュメント、モニタリング、トリアージ)にまたがる専門家による注釈付きデータセットを提案する。
このデータセットは、既存のデータセットから欠落しているケアデリバリーの本質的な複雑さを反映して、精神医療実践者が遭遇する微妙な臨床推論と日々のあいまいさを捉えるように設計されている。
回答オプションが5つある203の質問のほとんど全てが、決定に関係のない人口統計学的情報を取り除き、変数(例えば、AGE)に置き換え、男性、女性、非バイナリコーディングされた患者に利用可能である。
あいまいさと複数の有効な回答オプションを扱う質問カテゴリに対して、専門家のアノテーションから不確実性のある選好データセットを作成します。
対象とした一連のユースケースを概説し,11個のオフザシェルフと4個のメンタルヘルス微調整LMをカテゴリー別タスク精度,患者の人口統計情報による意思決定への影響,ヒトの注釈標本からのフリーフォーム応答の連続性などに基づいて評価することにより,データセットの有用性を実証した。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - DiversityMedQA: Assessing Demographic Biases in Medical Diagnosis using Large Language Models [2.750784330885499]
DiversityMedQAは,多彩な患者集団にわたる医療クエリに対する大規模言語モデル(LLM)応答を評価するために設計された,新しいベンチマークである。
以上の結果から,これらの変動に比較して,モデル性能に顕著な差が認められた。
論文 参考訳(メタデータ) (2024-09-02T23:37:20Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - From Classification to Clinical Insights: Towards Analyzing and Reasoning About Mobile and Behavioral Health Data With Large Language Models [21.427976533706737]
我々は,多センサデータから臨床的に有用な知見を合成するために,大規模言語モデルを活用する新しいアプローチを採っている。
うつ病や不安などの症状とデータの傾向がどのように関連しているかを,LSMを用いて推論する思考促進手法の連鎖を構築した。
GPT-4のようなモデルでは数値データの75%を正確に参照しており、臨床参加者は、この手法を用いて自己追跡データを解釈することへの強い関心を表明している。
論文 参考訳(メタデータ) (2023-11-21T23:53:27Z) - Adaptive questionnaires for facilitating patient data entry in clinical
decision support systems: Methods and application to STOPP/START v2 [1.8374319565577155]
本稿では,適応型アンケートを用いて患者データ入力を簡略化する独自のソリューションを提案する。
ルールに基づく意思決定支援システムを考えると,臨床ルールを表示規則に翻訳する手法を考案した。
アンケート調査の結果, 臨床症状の約3分の2減らすことができることがわかった。
論文 参考訳(メタデータ) (2023-09-19T07:59:13Z) - Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain
Management [5.044336341666555]
痛み管理の文脈におけるQAのバイアスを評価するためのデータセットであるQ-Painを紹介する。
本稿では, 治療決定の際に生じる潜在的なバイアスを測定するための, 実験設計のサンプルを含む, 厳密な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T21:55:28Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。