Fugu-MT 論文翻訳(概要): A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist

論文の概要: A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist

arxiv url: http://arxiv.org/abs/2510.19139v1
Date: Wed, 22 Oct 2025 00:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:14.831112
Title: A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist
Title（参考訳）: 認知能力の多面的分析:conSORTチェックリストを用いた大規模言語モデルを用いたプロンプト手法の評価
Authors: Sohyeon Jeon, Hyung-Chul Lee,
Abstract要約: 本研究では,専門家検証データを用いた行動・メタ認知分析手法を適用した。モデルが様々なCONSORTアイテムやプロンプトタイプにどのようにアプローチしたかにおいて、明らかな違いが現れた。
参考スコア（独自算出の注目度）: 1.1731001328350983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the rapid expansion of Large Language Models (LLMs) in healthcare, the ability of these systems to assess clinical trial reporting according to CONSORT standards remains unclear, particularly with respect to their cognitive and reasoning strategies. This study applies a behavioral and metacognitive analytic approach with expert-validated data, systematically comparing two representative LLMs under three prompt conditions. Clear differences emerged in how the models approached various CONSORT items, and prompt types, including shifts in reasoning style, explicit uncertainty, and alternative interpretations shaped response patterns. Our results highlight the current limitations of these systems in clinical compliance automation and underscore the importance of understanding their cognitive adaptations and strategic behavior in developing more explainable and reliable medical AI.
Abstract（参考訳）: 医療におけるLarge Language Models (LLMs) の急速な拡大にもかかわらず、これらのシステムによるConSORT標準による臨床試験報告の評価能力は、特に認知的および推論戦略に関して不明確である。本研究では,3つの素早い条件下での2つのLLMを系統的に比較し,専門家検証データを用いた行動・メタ認知分析手法を適用した。モデルがどのように様々なCONSORTアイテムにアプローチし、推論スタイルのシフト、明確な不確実性、代替的な反応パターンを形成するなど、プロンプトタイプに明確な違いが現れた。臨床コンプライアンス自動化におけるこれらのシステムの現在の限界を強調し、より説明可能な信頼性の高い医療用AIを開発する上で、認知的適応と戦略的行動を理解することの重要性を強調した。

関連論文リスト

Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。 RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文参考訳（メタデータ） (2025-09-24T10:36:14Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
No Black Boxes: Interpretable and Interactable Predictive Healthcare with Knowledge-Enhanced Agentic Causal Discovery [12.134852642539407]
知識に富んだエージェント駆動因果発見フレームワークであるII-KEAを提案する。 II-KEAは明確な推論と因果解析を通じて解釈可能性を高める。また、臨床医がカスタマイズされた知識ベースとプロンプトを通じて知識や経験を注入することで、対話性も向上する。
論文参考訳（メタデータ） (2025-05-22T06:36:30Z)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。有効性を評価するための標準化された評価基準が欠如している。このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T11:05:42Z)
Methodological Explainability Evaluation of an Interpretable Deep Learning Model for Post-Hepatectomy Liver Failure Prediction Incorporating Counterfactual Explanations and Layerwise Relevance Propagation: A Prospective In Silico Trial [13.171582596404313]
術前PHLF予測のための可変オートエンコーダ-多層パーセプトロン (VAE-MLP) モデルを開発した。このモデルは、その意思決定メカニズムに関する洞察を提供するために、カウンターファクトアルとレイヤワイズ関連伝播(LRP)を統合した。サイリコ臨床試験の3トラックの結果、AIの説明が提供されると、臨床医の予測精度と信頼性が向上した。
論文参考訳（メタデータ） (2024-08-07T13:47:32Z)
Informing clinical assessment by contextualizing post-hoc explanations of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文参考訳（メタデータ） (2023-02-11T18:07:11Z)
VBridge: Connecting the Dots Between Features, Explanations, and Data for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文参考訳（メタデータ） (2021-08-04T17:34:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。