論文の概要: CheXthought: A global multimodal dataset of clinical chain-of-thought reasoning and visual attention for chest X-ray interpretation
- arxiv url: http://arxiv.org/abs/2604.26288v2
- Date: Thu, 30 Apr 2026 08:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.73179
- Title: CheXthought: A global multimodal dataset of clinical chain-of-thought reasoning and visual attention for chest X-ray interpretation
- Title(参考訳): CheX Thought: 臨床チェーン・オブ・シント推論のグローバルマルチモーダルデータセットと胸部X線解釈のための視覚的注意
- Authors: Sonali Sharma, Jin Long, George Shih, Sarah Eid, Christian Bluethgen, Francine L. Jacobson, Emily B. Tsai, Global Radiology Consortium, Ahmed M. Alaa, Curtis P. Langlotz,
- Abstract要約: 我々はCheX Thoughtについて紹介する。CheX Thoughtは103,592の連鎖推論トレースと6,609,082の同期視覚注意アノテーションを含むグローバルなマルチモーダルリソースである。
本分析では, 専門家の視覚検索戦略の展開, 臨床コンテキストの統合, 不確実性のコミュニケーションに関する臨床推論パターンを明らかにした。
- 参考スコア(独自算出の注目度): 13.590311528926888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chest X-ray interpretation is one of the most frequently performed diagnostic tasks in medicine and a primary target for AI development, yet current vision-language models are primarily trained on datasets of paired images and reports, not the cognitive processes and visual attention that underlie clinical reasoning. Here, we present CheXthought, a global, multimodal resource containing 103,592 chain-of-thought reasoning traces and 6,609,082 synchronized visual attention annotations across 50,312 multi-read chest X-rays from 501 radiologists in 71 countries. Our analysis reveals clinical reasoning patterns in how experts deploy distinct visual search strategies, integrate clinical context, and communicate uncertainty. We demonstrate the clinical utility of CheXthought across four dimensions. First, CheXthought reasoning significantly outperforms state-of-the-art vision-language model chain-of-thought in factual accuracy and spatial grounding. Second, visual attention data used as an inference-time hint recovers missed findings and significantly reduces hallucinations. Third, vision-language models trained on CheXthought data achieve significantly stronger pathology classification, visual faithfulness, temporal reasoning and uncertainty communication. Fourth, leveraging CheXthought's multi-reader annotations, we predict both human-human and human-AI disagreement directly from an image, enabling transparent communication of case difficulty, uncertainty and model reliability. These findings establish CheXthought as a resource for advancing multimodal clinical reasoning and the development of more transparent, interpretable vision-language models.
- Abstract(参考訳): 胸部X線解釈は、医学において最も頻繁に実行される診断タスクの1つであり、AI開発の主要なターゲットであるが、現在の視覚言語モデルは、主に、認知過程や、臨床推論の根底にある視覚的注意ではなく、ペア画像とレポートのデータセットに基づいて訓練されている。
71か国501人の放射線学者による50,312個の胸部X線を対象とし,103,592個のチェーン・オブ・シート・トレースと6,609,082個の視覚的注意アノテーションを併用した世界規模のマルチモーダル・リソースであるCheX Thoughtについて紹介する。
本分析では, 専門家の視覚検索戦略の展開, 臨床コンテキストの統合, 不確実性のコミュニケーションに関する臨床推論パターンを明らかにした。
我々はCheX Thoughtの臨床的有用性を4次元にわたって示す。
第一に、CheX Thoughtの推論は、実際の精度と空間的グラウンドニングにおいて、最先端のビジョン言語モデルチェーンよりも大幅に優れています。
第二に、推測時間ヒントとして使用される視覚的注意データは、発見の欠落を回復し、幻覚を著しく減少させる。
第三に、CheX Thoughtデータに基づいて訓練された視覚言語モデルは、より強力な病理分類、視覚的忠実性、時間的推論、不確実性通信を実現する。
第4に、CheX Thoughtのマルチリーダーアノテーションを利用して、画像から直接人間とAIの相違を直接予測し、ケースの難易度、不確実性、モデルの信頼性の透過的なコミュニケーションを可能にする。
これらの知見は、CheX Thoughtを多モーダルな臨床推論の進展と、より透明で解釈可能な視覚言語モデルの開発のためのリソースとして確立している。
関連論文リスト
- Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning [13.62559208250024]
本稿では,放射線技師の眼球追跡データをモデル専門家による診断に先立つ行動として活用する視覚言語モデルであるGazeXを紹介する。
我々は,GazeXが放射線学報告の生成,疾患接地,視覚的質問応答において,より正確で,解釈可能で,専門家による一貫した出力を生成することを実証した。
論文 参考訳(メタデータ) (2026-04-15T18:19:05Z) - A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation [48.23500302185585]
CXR解釈のための推論可能な視覚言語モデルであるCheXOneを提案する。
CheXOneは、診断予測と明示的で臨床的に根拠付けられた推論トレースを共同で生成する。
55%のケースでは,CheXOneドラフトレポートは常駐レポートと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2026-04-01T05:19:09Z) - Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays [36.424685517493565]
CoGazeは、胸部X線のためのコンテキストおよびガゼ誘導視覚言語事前トレーニングフレームワークである。
まず,放射線科医が臨床的コンテキストを統合する方法をモデル化したコンテキスト注入型視覚エンコーダを提案する。
次に、モーダル内およびモーダル間セマンティックアライメントを強制するマルチレベル監視パラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-27T03:37:52Z) - Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Reasoning Visual Language Model for Chest X-Ray Analysis [30.318629424154206]
胸部X線解釈にチェーン・オブ・シント(CoT)推論をもたらすフレームワークを提案する。
推論ファーストのトレーニングパラダイムにインスパイアされた私たちのアプローチは、専門家が結論を下すだけでなく、どのように判断するかを学ぶように設計されています。
我々は,胸部X線撮影における信頼に値する,説明可能なAIに向けたコミュニティの進展を支援するために,コードとモデルNV-Reason-CXR-3Bをリリースする。
論文 参考訳(メタデータ) (2025-10-28T00:48:00Z) - Think Twice to See More: Iterative Visual Reasoning in Medical VLMs [21.083636394814217]
私たちは、人間の専門家の反復的推論プロセスをエミュレートするフレームワークViTARを紹介します。
ViTARは、医療画像をインタラクティブなオブジェクトとして扱い、モデルが多段階の視覚的推論を行えるようにする。
論文 参考訳(メタデータ) (2025-10-11T06:39:57Z) - LATTE: Learning to Think with Vision Specialists [110.43838069105998]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。