論文の概要: MEPNet: Medical Entity-balanced Prompting Network for Brain CT Report Generation
- arxiv url: http://arxiv.org/abs/2503.17784v1
- Date: Sat, 22 Mar 2025 14:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:58.524377
- Title: MEPNet: Medical Entity-balanced Prompting Network for Brain CT Report Generation
- Title(参考訳): MEPNet:脳CTレポート生成のための医用エンティティバランスプロンプトネットワーク
- Authors: Xiaodan Zhang, Yanzhao Shi, Junzhong Ji, Chengxin Zheng, Liangqiong Qu,
- Abstract要約: 医用エンティティバランス型プロンプトネットワーク(MEPNet)を提案する。
MEPNetは、大きな言語モデル(LLM)を利用して、様々なエンティティを適切に解釈し、正確な脳CTレポートを生成する。
我々は2つの脳CTレポート生成ベンチマーク実験を行い、臨床精度とテキストコヒーレンスの有効性を示した。
- 参考スコア(独自算出の注目度): 12.40415847810958
- License:
- Abstract: The automatic generation of brain CT reports has gained widespread attention, given its potential to assist radiologists in diagnosing cranial diseases. However, brain CT scans involve extensive medical entities, such as diverse anatomy regions and lesions, exhibiting highly inconsistent spatial patterns in 3D volumetric space. This leads to biased learning of medical entities in existing methods, resulting in repetitiveness and inaccuracy in generated reports. To this end, we propose a Medical Entity-balanced Prompting Network (MEPNet), which harnesses the large language model (LLM) to fairly interpret various entities for accurate brain CT report generation. By introducing the visual embedding and the learning status of medical entities as enriched clues, our method prompts the LLM to balance the learning of diverse entities, thereby enhancing reports with comprehensive findings. First, to extract visual embedding of entities, we propose Knowledge-driven Joint Attention to explore and distill entity patterns using both explicit and implicit medical knowledge. Then, a Learning Status Scorer is designed to evaluate the learning of entity visual embeddings, resulting in unique learning status for individual entities. Finally, these entity visual embeddings and status are elaborately integrated into multi-modal prompts, to guide the text generation of LLM. This process allows LLM to self-adapt the learning process for biased-fitted entities, thereby covering detailed findings in generated reports. We conduct experiments on two brain CT report generation benchmarks, showing the effectiveness in clinical accuracy and text coherence.
- Abstract(参考訳): 放射線科医が脳疾患の診断に役立てる可能性から、脳CTの自動診断が注目されている。
しかし、脳CTでは、様々な解剖学的領域や病変などの広範囲にわたる医学的実体が含まれており、3次元体積空間において非常に矛盾した空間パターンを示す。
このことは、既存の方法における医学的実体のバイアス付き学習をもたらし、その結果、生成された報告の反復性と不正確性をもたらす。
そこで本研究では,大規模言語モデル(LLM)を利用した医療エンティティバランス型プロンプトネットワーク(MEPNet)を提案する。
本手法は,医療機関の視覚的埋め込みと学習状況を豊かな手がかりとして導入することにより,多様な実体の学習のバランスをとることを促すとともに,総合的な知見による報告の充実を促す。
まず, 実体の視覚的埋め込みを抽出するために, 明示的・暗黙的な医療知識を用いて, 実体パターンを探索し, 抽出する知識駆動型共同注意法を提案する。
そして、学習ステータススコーラは、エンティティの視覚的埋め込みの学習を評価するように設計され、その結果、個々のエンティティに対して独自の学習ステータスが得られる。
最後に、これらの実体的な視覚的埋め込みとステータスは、LLMのテキスト生成を導くために、マルチモーダルプロンプトに精巧に統合される。
このプロセスにより、LLMはバイアス適合したエンティティの学習プロセスに自己適応し、生成されたレポートの詳細な発見をカバーできる。
我々は2つの脳CTレポート生成ベンチマーク実験を行い、臨床精度とテキストコヒーレンスの有効性を示した。
関連論文リスト
- See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning [12.40415847810958]
本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。
具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。
テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。
論文 参考訳(メタデータ) (2024-09-29T12:08:20Z) - MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis [3.8758525789991896]
医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。
医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。
臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
論文 参考訳(メタデータ) (2024-05-23T02:22:10Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Unifying Neural Learning and Symbolic Reasoning for Spinal Medical
Report Generation [33.818136671925444]
本稿では,深層学習と記号論理的推論を統一することにより,人間的な学習を行うニューラル・シンボリック・ラーニング・フレームワークを提案する。
我々のアルゴリズムは、既存の脊髄構造検出手法をはるかに上回っている。
論文 参考訳(メタデータ) (2020-04-28T15:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。