論文の概要: TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis
- arxiv url: http://arxiv.org/abs/2603.05867v2
- Date: Mon, 09 Mar 2026 11:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.500821
- Title: TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis
- Title(参考訳): 悪性腫瘍診断のためのインターリーブ型マルチモーダルチェイン・オブ・サート推論
- Authors: Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang,
- Abstract要約: tumorChainは、3Dイメージングエンコーダ、臨床テキスト理解、臓器レベルの視覚言語アライメントを密結合するマルチモーダルインターリーブ推論フレームワークである。
実験では、病変検出、印象生成、病理分類において、強いベースラインよりも一貫した改善が見られ、DeepTumorVQAベンチマークで強い一般化が示されている。
- 参考スコア(独自算出の注目度): 46.04720262017957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate tumor analysis is central to clinical radiology and precision oncology, where early detection, reliable lesion characterization, and pathology-level risk assessment guide diagnosis and treatment planning. Chain-of-Thought (CoT) reasoning is particularly important in this setting because it enables step-by-step interpretation from imaging findings to clinical impressions and pathology conclusions, improving traceability and reducing diagnostic errors. Here, we target the clinical tumor analysis task and build a large-scale benchmark that operationalizes a multimodal reasoning pipeline, spanning findings, impressions, and pathology predictions. We curate TumorCoT, a large-scale dataset of 1.5M CoT-labeled VQA instructions paired with 3D CT scans, with step-aligned rationales and cross-modal alignments along the trajectory from findings to impression to pathology, enabling evaluation of both answer accuracy and reasoning consistency. We further propose TumorChain, a multimodal interleaved reasoning framework that tightly couples 3D imaging encoders, clinical text understanding, and organ-level vision-language alignment. Through cross-modal alignment and iterative interleaved causal reasoning, TumorChain grounds visual evidence, aggregates conclusions, and issues pathology predictions after multiple rounds of self-refinement, improving traceability and reducing hallucination risk. Experiments show consistent improvements over strong baselines in lesion detection, impression generation, and pathology classification, and demonstrate strong generalization on the DeepTumorVQA benchmark. These results highlight the potential of multimodal reasoning for reliable and interpretable tumor analysis in clinical practice. Detailed information about our project can be found on our project homepage at https://github.com/ZJU4HealthCare/TumorChain.
- Abstract(参考訳): 腫瘍の正確な解析は、早期発見、信頼できる病変のキャラクタリゼーション、病理レベルリスクアセスメントガイドの診断と治療計画など、臨床放射線学および精密腫瘍学の中心である。
CoT(Chain-of-Thought)推論は、画像所見から臨床印象や病理学的結論まで段階的に解釈し、トレーサビリティを改善し、診断誤差を低減できるため、この設定において特に重要である。
そこで本研究では, 臨床腫瘍解析タスクを目標とし, マルチモーダル推論パイプラインを運用する大規模ベンチマークを構築した。
我々は,1.5M CoT-labeled VQA命令を3次元CTスキャンと組み合わせた大規模データセットであるTormaCoTを解析した。
さらに,3次元画像エンコーダ,臨床テキスト理解,臓器レベルの視覚言語アライメントを密結合するマルチモーダルインターリーブ・推論フレームワークであるTurmaChainを提案する。
クロスモーダルアライメントと反復的インターリーブによる因果推論を通じて、TormaChainは視覚的エビデンスを根拠とし、結論を集約し、複数ラウンドの自己切除後に病理予測を発行し、トレーサビリティを改善し、幻覚リスクを低減させる。
実験では、病変検出、印象生成、病理分類において、強いベースラインよりも一貫した改善が見られ、DeepTumorVQAベンチマークで強い一般化が示されている。
これらの結果は, 臨床における腫瘍解析の信頼性と解釈性に関するマルチモーダル推論の可能性を強調した。
プロジェクトの詳細情報はプロジェクトのホームページhttps://github.com/ZJU4HealthCare/TumorChain.comで確認できます。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - OrthoInsight: Rib Fracture Diagnosis and Report Generation Based on Multi-Modal Large Models [0.49478969093606673]
骨折診断と報告生成のための多モード深層学習フレームワークOrthoInsightを提案する。
骨折検出のためのYOLOv9モデル、臨床コンテキストを検索するための医療知識グラフ、診断レポートを生成するための微調整されたLLaVA言語モデルを統合する。
28,675枚のCT画像と専門家の報告から評価し、診断精度、コンテンツ完全性、論理的コヒーレンス、臨床ガイダンス値にまたがる高いパフォーマンスを平均4.28で達成している。
論文 参考訳(メタデータ) (2025-07-18T15:01:44Z) - A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation [4.408787333571913]
本稿では,自動腎CTレポート作成のための枠組みを提案する。
ステージ1では、マルチタスク学習モデルが、各2次元画像から構造化された臨床特徴を検出する。
ステージ2では、視覚言語モデルが画像と検出された特徴に条件付けされた自由テキストレポートを生成する。
論文 参考訳(メタデータ) (2025-06-30T07:45:02Z) - MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement [1.6355783973385114]
多視点認識知識強化型TansfoRmer(MvKeTR)
複数の解剖学的ビューから診断情報を効果的に合成するために、ビューアウェアのMVPAを提案する。
クエリボリュームに基づいて、最も類似したレポートを取得するために、Cross-Modal Knowledge Enhancer (CMKE) が考案されている。
論文 参考訳(メタデータ) (2024-11-27T12:58:23Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。