論文の概要: A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist
- arxiv url: http://arxiv.org/abs/2510.19139v2
- Date: Sun, 26 Oct 2025 01:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.603754
- Title: A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist
- Title(参考訳): 認知能力の多面的分析:conSORTチェックリストを用いた大規模言語モデルを用いたプロンプト手法の評価
- Authors: Sohyeon Jeon, Hyung-Chul Lee,
- Abstract要約: 本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
- 参考スコア(独自算出の注目度): 1.1731001328350983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid expansion of Large Language Models (LLMs) in healthcare, robust and explainable evaluation of their ability to assess clinical trial reporting according to CONSORT standards remains an open challenge. In particular, uncertainty calibration and metacognitive reliability of LLM reasoning are poorly understood and underexplored in medical automation. This study applies a behavioral and metacognitive analytic approach using an expert-validated dataset, systematically comparing two representative LLMs - one general and one domain-specialized - across three prompt strategies. We analyze both cognitive adaptation and calibration error using metrics: Expected Calibration Error (ECE) and a baseline-normalized Relative Calibration Error (RCE) that enables reliable cross-model comparison. Our results reveal pronounced miscalibration and overconfidence in both models, especially under clinical role-playing conditions, with calibration error persisting above clinically relevant thresholds. These findings underscore the need for improved calibration, transparent code, and strategic prompt engineering to develop reliable and explainable medical AI.
- Abstract(参考訳): 医療におけるLarge Language Models(LLMs)の急速な拡張にもかかわらず、ConSORT標準に従って臨床試験報告を評価する能力の堅牢で説明可能な評価は、依然としてオープンな課題である。
特に, LLM推論の不確実性の校正とメタ認知的信頼性は, 医療自動化において十分に理解されておらず, 未解明である。
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用し,3つの迅速な戦略に対して,2つの代表的なLLM(一般分野と特定分野)を体系的に比較した。
予測校正誤差(ECE)とベースライン正規化校正誤差(RCE)は,信頼性の高いクロスモデル比較を可能にする。
以上より, 両モデルとも, 特に臨床ロールプレイング条件では, 校正誤差が持続し, 誤診や過信感が顕著であった。
これらの発見は、信頼性と説明可能な医療AIを開発するために、キャリブレーションの改善、透明なコード、戦略的プロンプトエンジニアリングの必要性を浮き彫りにしている。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - No Black Boxes: Interpretable and Interactable Predictive Healthcare with Knowledge-Enhanced Agentic Causal Discovery [12.134852642539407]
知識に富んだエージェント駆動因果発見フレームワークであるII-KEAを提案する。
II-KEAは明確な推論と因果解析を通じて解釈可能性を高める。
また、臨床医がカスタマイズされた知識ベースとプロンプトを通じて知識や経験を注入することで、対話性も向上する。
論文 参考訳(メタデータ) (2025-05-22T06:36:30Z) - Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。
有効性を評価するための標準化された評価基準が欠如している。
このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T11:05:42Z) - Methodological Explainability Evaluation of an Interpretable Deep Learning Model for Post-Hepatectomy Liver Failure Prediction Incorporating Counterfactual Explanations and Layerwise Relevance Propagation: A Prospective In Silico Trial [13.171582596404313]
術前PHLF予測のための可変オートエンコーダ-多層パーセプトロン (VAE-MLP) モデルを開発した。
このモデルは、その意思決定メカニズムに関する洞察を提供するために、カウンターファクトアルとレイヤワイズ関連伝播(LRP)を統合した。
サイリコ臨床試験の3トラックの結果、AIの説明が提供されると、臨床医の予測精度と信頼性が向上した。
論文 参考訳(メタデータ) (2024-08-07T13:47:32Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。