論文の概要: MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement
- arxiv url: http://arxiv.org/abs/2411.18309v2
- Date: Mon, 06 Jan 2025 10:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:49.989007
- Title: MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement
- Title(参考訳): MvKeTR:マルチビュー認識と知識向上による胸部CTレポート生成
- Authors: Xiwei Deng, Xianchun He, Jiangfeng Bao, Yudan Zhou, Shuhui Cai, Congbo Cai, Zhong Chen,
- Abstract要約: マルチビュー認識知識強化トランス(MvKeTR)
複数の解剖学的視点から診断情報を効果的に合成する。
Cross-Modal Knowledge Enhancer (CMKE) はクエリボリュームに基づいて最もよく似たレポートを検索する。
- 参考スコア(独自算出の注目度): 1.4680538148112467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CT report generation (CTRG) aims to automatically generate diagnostic reports for 3D volumes, relieving clinicians' workload and improving patient care. Despite clinical value, existing works fail to effectively incorporate diagnostic information from multiple anatomical views and lack related clinical expertise essential for accurate and reliable diagnosis. To resolve these limitations, we propose a novel Multi-view perception Knowledge-enhanced Transformer (MvKeTR) to mimic the diagnostic workflow of clinicians. Just as radiologists first examine CT scans from multiple planes, a Multi-View Perception Aggregator (MVPA) with view-aware attention effectively synthesizes diagnostic information from multiple anatomical views. Then, inspired by how radiologists further refer to relevant clinical records to guide diagnostic decision-making, a Cross-Modal Knowledge Enhancer (CMKE) retrieves the most similar reports based on the query volume to incorporate domain knowledge into the diagnosis procedure. Furthermore, instead of traditional MLPs, we employ Kolmogorov-Arnold Networks (KANs) with learnable nonlinear activation functions as the fundamental building blocks of both modules to better capture intricate diagnostic patterns in CT interpretation. Extensive experiments on the public CTRG-Chest-548K dataset demonstrate that our method outpaces prior state-of-the-art (SOTA) models across almost all metrics. The code will be made publicly available.
- Abstract(参考訳): CTレポート生成(CTRG)は、3Dボリュームの診断レポートを自動的に生成し、臨床医の作業負荷を軽減し、患者のケアを改善することを目的としている。
臨床価値にもかかわらず、既存の研究は、複数の解剖学的視点から診断情報を効果的に組み込むことができず、正確で信頼性の高い診断に必要な臨床知識が欠如している。
これらの制約を解決するために,臨床医の診断ワークフローを模倣する,MvKeTR(Multi-view Recognition-enhanced Transformer)を提案する。
放射線学者がまず複数の平面からのCTスキャンを調べるのと同じように、視線を意識した多視点知覚アグリゲータ(MVPA)は、複数の解剖学的視点から診断情報を効果的に合成する。
その後、放射線技師が関連する臨床記録を参照して診断の意思決定をガイドする方法に触発され、Cross-Modal Knowledge Enhancer(CMKE)は、クエリ量に基づいて最もよく似たレポートを検索し、診断手順にドメイン知識を組み込む。
さらに,従来のMLPの代わりに,学習可能な非線形アクティベーション機能を備えたKAN(Kolmogorov-Arnold Networks)を両モジュールの基本構築ブロックとして採用し,CT解釈における複雑な診断パターンをより正確に捉える。
パブリックなCTRG-Chest-548Kデータセットに関する大規模な実験により、我々の手法は、ほぼすべてのメトリクスにわたって、以前の最先端(SOTA)モデルよりも優れていることが示された。
コードは公開されます。
関連論文リスト
- Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
本研究は,胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチの包括的評価である。
新型コロナウイルス、肺不透明症、ウイルス性肺炎に焦点が当てられている。
臨床実習におけるAI駆動診断ツールの統合について報告する。
論文 参考訳(メタデータ) (2025-04-16T16:54:37Z) - Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。
VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。
結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文 参考訳(メタデータ) (2025-03-17T14:08:35Z) - A Continual Learning-driven Model for Accurate and Generalizable Segmentation of Clinically Comprehensive and Fine-grained Whole-body Anatomies in CT [67.34586036959793]
完全に注釈付きCTデータセットは存在せず、すべての解剖学がトレーニングのために記述されている。
完全解剖を分割できる連続学習駆動CTモデルを提案する。
単体CT分割モデルCL-Netは, 臨床的に包括的に包括的に235個の粒状体解剖の集合を高精度に分割することができる。
論文 参考訳(メタデータ) (2025-03-16T23:55:02Z) - Bridging the Diagnostic Divide: Classical Computer Vision and Advanced AI methods for distinguishing ITB and CD through CTE Scans [2.900410045439515]
放射線医の間では, 内皮-皮下脂肪比は, ITBとCDの鑑別における代用バイオマーカーとして認識されている。
本稿では,この比率計算を自動化するために,皮下脂肪の自動分離のための新しい2次元画像コンピュータビジョンアルゴリズムを提案する。
ITB, CD, 正常患者のサンプルを用いて, CTEスキャンのデータセットを用いてResNet10モデルを訓練し, 75%の精度を得た。
論文 参考訳(メタデータ) (2024-10-23T17:05:27Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Dynamic Multi-Domain Knowledge Networks for Chest X-ray Report
Generation [0.5939858158928474]
放射線診断レポート生成のための動的マルチドメイン知識(DMDK)ネットワークを提案する。
DMDKネットワークは、Chest Feature Extractor(CFE), Dynamic Knowledge Extractor(DKE), Specific Knowledge Extractor(SKE), Multi-knowledge Integrator(MKI)モジュールの4つのモジュールで構成されている。
IU X-RayとMIMIC-CXRの2つの広く使われているデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T11:20:02Z) - An Empirical Analysis for Zero-Shot Multi-Label Classification on
COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。
新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。
本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文 参考訳(メタデータ) (2023-09-04T17:58:01Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Improving Chest X-Ray Classification by RNN-based Patient Monitoring [0.34998703934432673]
我々は、診断に関する情報がCNNに基づく画像分類モデルを改善する方法について分析する。
追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-28T11:47:15Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - SpineOne: A One-Stage Detection Framework for Degenerative Discs and
Vertebrae [54.751251046196494]
SpineOneと呼ばれる一段階検出フレームワークを提案し、MRIスライスから変性椎骨と椎骨を同時に局在化・分類する。
1)キーポイントの局所化と分類を促進するためのキーポイント・ヒートマップの新しい設計、2)ディスクと脊椎の表現をよりよく区別するためのアテンション・モジュールの使用、3)後期訓練段階における複数の学習目標を関連付けるための新しい勾配誘導客観的アソシエーション機構。
論文 参考訳(メタデータ) (2021-10-28T12:59:06Z) - BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer
Diagnosis in Breast Ultrasound Images [69.41441138140895]
本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。
提案手法は, 臨床診断に関連する特徴表現を学習することにより, 乳腺腫瘍の説明と分類を行うタスクを取り入れたものである。
臨床医が医療現場で診断・報告するために使用する形態学的特徴の観点から予測(良性または悪性)の説明が提供される。
論文 参考訳(メタデータ) (2021-10-05T19:14:46Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。