論文の概要: Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis
- arxiv url: http://arxiv.org/abs/2405.17459v1
- Date: Thu, 23 May 2024 02:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:20:06.390455
- Title: Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis
- Title(参考訳): マルチモーダルディープラーニングによる医用画像の統合と臨床報告
- Authors: Ziyan Yao, Fei Lin, Sheng Chai, Weijie He, Lu Dai, Xinghui Fei,
- Abstract要約: 医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。
医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。
臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
- 参考スコア(独自算出の注目度): 3.8758525789991896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, an innovative multi-modal deep learning model is proposed to deeply integrate heterogeneous information from medical images and clinical reports. First, for medical images, convolutional neural networks were used to extract high-dimensional features and capture key visual information such as focal details, texture and spatial distribution. Secondly, for clinical report text, a two-way long and short-term memory network combined with an attention mechanism is used for deep semantic understanding, and key statements related to the disease are accurately captured. The two features interact and integrate effectively through the designed multi-modal fusion layer to realize the joint representation learning of image and text. In the empirical study, we selected a large medical image database covering a variety of diseases, combined with corresponding clinical reports for model training and validation. The proposed multimodal deep learning model demonstrated substantial superiority in the realms of disease classification, lesion localization, and clinical description generation, as evidenced by the experimental results.
- Abstract(参考訳): 本稿では,医用画像と臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。
まず、医用画像において、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、焦点情報、テクスチャ、空間分布などの重要な視覚情報をキャプチャした。
第2に、臨床報告テキストにおいて、注意機構と組み合わされた双方向長短期記憶ネットワークを用いて深い意味理解を行い、当該疾患に関する重要な声明を正確に取得する。
この2つの特徴は、画像とテキストの合同表現学習を実現するために、設計したマルチモーダル融合層を介して効果的に相互作用し、統合する。
本研究は, 各種疾患をカバーする大規模医用画像データベースと, モデルトレーニングと妥当性検証のための臨床報告を併用して選択した。
提案した多モード深層学習モデルは, 疾患分類, 病変局所化, 臨床記述生成の領域において, 有意な優位性を示した。
関連論文リスト
- HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Medical Image Segmentation with Belief Function Theory and Deep Learning [10.70969021941027]
本研究では,信仰機能理論と深層学習を用いた医用画像分割手法について検討する。
本稿では,不確実な証拠に基づく情報モデリングと融合に焦点を当てる。
論文 参考訳(メタデータ) (2023-09-12T02:04:36Z) - Enhancing Representation in Radiography-Reports Foundation Model: A
Granular Alignment Algorithm Using Masked Contrastive Learning [8.717599327516822]
MaCoは、マスク付きコントラスト学習を探求し、様々な医療画像タスクに対して、きめ細かいアライメントとゼロショット学習を実現する、新しいマルチモーダル医療基盤モデルである。
6つの有名なオープンソースX線データセット上でMaCoを評価し, 実験結果から, 分類, セグメンテーション, ゼロショット位相グラウンドニングにおいて, 最先端の7つのアプローチよりも優れた結果を得た。
論文 参考訳(メタデータ) (2023-09-12T01:29:37Z) - Multi-modal Graph Neural Network for Early Diagnosis of Alzheimer's
Disease from sMRI and PET Scans [11.420077093805382]
我々は,非ユークリッド領域の問題に対処するためのグラフニューラルネットワーク(GNN)を提案する。
本研究では,sMRIやPET画像から脳ネットワークを生成可能であることを示す。
次に、各モーダルが独自のGNNの分岐を持つマルチモーダルGNNフレームワークを提案し、その多モーダルデータを組み合わせる手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T02:04:05Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Microscopic fine-grained instance classification through deep attention [7.50282814989294]
限られたサンプルを用いた微視的画像データのきめ細かい分類は、コンピュータビジョンとバイオメディカルイメージングにおいて未解決の問題である。
本稿では,エンドツーエンドで2つのタスクを同時に実行する,シンプルで効果的なディープネットワークを提案する。
その結果、堅牢だが軽量なエンドツーエンドのトレーニング可能なディープネットワークが実現し、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-10-06T15:29:58Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。