論文の概要: Why Chain of Thought Fails in Clinical Text Understanding
- arxiv url: http://arxiv.org/abs/2509.21933v1
- Date: Fri, 26 Sep 2025 06:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.229002
- Title: Why Chain of Thought Fails in Clinical Text Understanding
- Title(参考訳): 臨床テキスト理解における思考の連鎖
- Authors: Jiageng Wu, Kevin Xie, Bowen Gu, Nils Krüger, Kueiyu Joshua Lin, Jie Yang,
- Abstract要約: チェーン・オブ・シークレット・プロンプト(CoT)はステップ・バイ・ステップの推論を導く。
大規模言語モデル(LLM)は、臨床医療にますます応用されている。
本研究は,臨床テキスト理解のためのCoTの大規模体系化研究である。
- 参考スコア(独自算出の注目度): 11.895158827781017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being applied to clinical care, a domain where both accuracy and transparent reasoning are critical for safe and trustworthy deployment. Chain-of-thought (CoT) prompting, which elicits step-by-step reasoning, has demonstrated improvements in performance and interpretability across a wide range of tasks. However, its effectiveness in clinical contexts remains largely unexplored, particularly in the context of electronic health records (EHRs), the primary source of clinical documentation, which are often lengthy, fragmented, and noisy. In this work, we present the first large-scale systematic study of CoT for clinical text understanding. We assess 95 advanced LLMs on 87 real-world clinical text tasks, covering 9 languages and 8 task types. Contrary to prior findings in other domains, we observe that 86.3\% of models suffer consistent performance degradation in the CoT setting. More capable models remain relatively robust, while weaker ones suffer substantial declines. To better characterize these effects, we perform fine-grained analyses of reasoning length, medical concept alignment, and error profiles, leveraging both LLM-as-a-judge evaluation and clinical expert evaluation. Our results uncover systematic patterns in when and why CoT fails in clinical contexts, which highlight a critical paradox: CoT enhances interpretability but may undermine reliability in clinical text tasks. This work provides an empirical basis for clinical reasoning strategies of LLMs, highlighting the need for transparent and trustworthy approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全で信頼性の高いデプロイメントにおいて、正確性と透明な推論の両方が不可欠である領域である臨床医療にますます応用されている。
CoT(Chain-of- Thought)プロンプトは、ステップバイステップの推論を引き出すもので、幅広いタスクにおけるパフォーマンスと解釈性の向上を実証している。
しかし、その臨床的文脈における有効性は、特に電子健康記録(EHRs)の文脈において、しばしば長く、断片化され、騒々しい臨床文書の主要な情報源である。
本研究は,臨床テキスト理解のためのCoTの大規模体系化研究である。
実世界の87のテキストタスクに対して95の高度なLCMを評価し,9つの言語と8つのタスクタイプをカバーした。
他の領域での以前の結果とは対照的に、86.3 %のモデルがCoT設定で一貫した性能劣化を被っている。
より有能なモデルは比較的堅牢であり、弱いモデルは著しく低下する。
これらの効果をより正確に評価するために, LLM-as-a-judge評価と臨床専門家評価を併用して, 推論長, 医療コンセプトアライメント, エラープロファイルのきめ細かい分析を行う。
以上の結果から,CoTは解釈可能性を高めつつも,臨床テキストタスクの信頼性を損なう可能性があるという重要なパラドックスが浮かび上がっている。
この研究は、LSMの臨床的推論戦略の実証的基盤を提供し、透明で信頼できるアプローチの必要性を強調している。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。