論文の概要: Diff-CXR: Report-to-CXR generation through a disease-knowledge enhanced diffusion model
- arxiv url: http://arxiv.org/abs/2410.20165v1
- Date: Sat, 26 Oct 2024 12:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:17.168993
- Title: Diff-CXR: Report-to-CXR generation through a disease-knowledge enhanced diffusion model
- Title(参考訳): Diff-CXR: 疾患知能増強拡散モデルによるCXRの報告
- Authors: Peng Huang, Bowen Guo, Shuyu Liang, Junhu Fu, Yuanyuan Wang, Yi Guo,
- Abstract要約: 本稿では,Diff-CXR と名づけられたDiffusion-to-CXR 学習フレームワークを提案する。
Diff-CXRは,MIMIC-CXRおよびIU-XrayのFIDおよびmAUCスコアにおいて,従来のSOTA医療TTI法を33.4%/8.0%/23.8%/56.4%で上回った。
- 参考スコア(独自算出の注目度): 4.507437953126754
- License:
- Abstract: Text-To-Image (TTI) generation is significant for controlled and diverse image generation with broad potential applications. Although current medical TTI methods have made some progress in report-to-Chest-Xray (CXR) generation, their generation performance may be limited due to the intrinsic characteristics of medical data. In this paper, we propose a novel disease-knowledge enhanced Diffusion-based TTI learning framework, named Diff-CXR, for medical report-to-CXR generation. First, to minimize the negative impacts of noisy data on generation, we devise a Latent Noise Filtering Strategy that gradually learns the general patterns of anomalies and removes them in the latent space. Then, an Adaptive Vision-Aware Textual Learning Strategy is designed to learn concise and important report embeddings in a domain-specific Vision-Language Model, providing textual guidance for Chest-Xray generation. Finally, by incorporating the general disease knowledge into the pretrained TTI model via a delicate control adapter, a disease-knowledge enhanced diffusion model is introduced to achieve realistic and precise report-to-CXR generation. Experimentally, our Diff-CXR outperforms previous SOTA medical TTI methods by 33.4\% / 8.0\% and 23.8\% / 56.4\% in the FID and mAUC score on MIMIC-CXR and IU-Xray, with the lowest computational complexity at 29.641 GFLOPs. Downstream experiments on three thorax disease classification benchmarks and one CXR-report generation benchmark demonstrate that Diff-CXR is effective in improving classical CXR analysis methods. Notably, models trained on the combination of 1\% real data and synthetic data can achieve a competitive mAUC score compared to models trained on all data, presenting promising clinical applications.
- Abstract(参考訳): テキスト・トゥ・イメージ・ジェネレーション(TTI)は、幅広い可能性を持つ制御された多様な画像生成において重要である。
現在の医療用TTI法はCXR(Report-to-Chest-Xray)生成に多少進歩しているが,本質的な医療データの特徴から,その生成性能が制限されている可能性がある。
本稿では,Diff-CXR と名づけられた医療報告・CXR 生成のための新しい疾患知識強化型 TTI 学習フレームワークを提案する。
まず、ノイズが生成に与える影響を最小化するために、異常の一般的なパターンを徐々に学習し、潜時空間でそれらを除去する潜時雑音フィルタリング戦略を考案する。
そこで,Adaptive Vision-Aware Textual Learning Strategyは,ドメイン固有のVision-Language Modelに簡潔で重要なレポートの埋め込みを学習し,チェストX線生成のためのテキストガイダンスを提供する。
最後に, 疾患知識を微妙な制御アダプタを介して事前訓練されたTTIモデルに組み込むことにより, 現実的で正確なCXR生成を実現するために, 疾患知識の拡張拡散モデルを導入する。
Diff-CXRは,MIMIC-CXRとIU-XrayのFIDおよびmAUCスコアにおいて,従来のSOTA医療TTI法よりも33.4\%/8.0\%/23.8\%/56.4\%,計算複雑性は29.641 GFLOPsで優れていた。
3つの胸郭疾患分類ベンチマークと1つのCXRレポート生成ベンチマークの下流実験は、Diff-CXRが古典的CXR分析法の改善に有効であることを示した。
特に、実データと合成データの組み合わせでトレーニングされたモデルは、すべてのデータでトレーニングされたモデルと比較して、競争力のあるmAUCスコアを得ることができ、有望な臨床応用を示す。
関連論文リスト
- TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model [22.305034251561835]
そこで我々は,大規模言語モデルへのクロスモーダル病ヒントインジェクションの段階的訓練に基づく,真正な放射線学レポート生成フレームワークTRRGを提案する。
提案フレームワークは,IU-XrayやMIMIC-CXRなどのデータセットを用いた放射線学レポート生成において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-08-22T05:52:27Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Bag of Tricks for Long-Tailed Multi-Label Classification on Chest X-Rays [40.11576642444264]
本報告では,ICCV CVAMD 2023 CXR-LT コンペティションにおけるソリューションの概要について述べる。
我々は,CXR診断の有効性を,いくつかの先進的な設計を統合することで実証的に検討した。
私たちのフレームワークは最終的に、競争テストセットで0.349 mAPを獲得し、トップ5にランクインしました。
論文 参考訳(メタデータ) (2023-08-17T08:25:55Z) - Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation [7.586632627817609]
放射線学者は、解釈と報告を必要とする胸部X線(CXR)の量の増加のために、高いバーンアウト率に直面している。
提案するCXRレポートジェネレータは,ワークフローの要素を統合し,強化学習のための新たな報酬を導入する。
本研究の結果から, 提案モデルでは, 最新技術モデルよりも, 放射線学者の報告に適合した報告が生成されることがわかった。
論文 参考訳(メタデータ) (2023-07-19T05:41:14Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Improving Radiology Report Generation Systems by Removing Hallucinated
References to Non-existent Priors [1.1110995501996481]
本稿では,放射線学報告における過去の文献参照を除去する2つの方法を提案する。
GPT-3をベースとした少数ショットによる医療報告の書き直し手法と,BioBERTをベースとしたトークン分類手法により,先行参照語を直接削除する手法である。
CXR-ReDonEと呼ばれる再学習モデルでは,臨床測定値に対する従来のレポート生成手法を上回り,平均BERTSスコア0.2351(絶対改善率2.57%)を達成した。
論文 参考訳(メタデータ) (2022-09-27T00:44:41Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。