論文の概要: Multi-Modal Multi-Instance Learning for Retinal Disease Recognition
- arxiv url: http://arxiv.org/abs/2109.12307v1
- Date: Sat, 25 Sep 2021 08:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 12:56:44.085844
- Title: Multi-Modal Multi-Instance Learning for Retinal Disease Recognition
- Title(参考訳): 網膜疾患認識のためのマルチモーダルマルチインスタンス学習
- Authors: Xirong Li and Yang Zhou and Jie Wang and Hailan Lin and Jianchun Zhao
and Dayong Ding and Weihong Yu and Youxin Chen
- Abstract要約: 我々は、特定の症例に対する複数の視覚障害を認識できるディープニューラルネットワークの構築を目指している。
データ取得と手動ラベリングは医療分野では非常に高価であるため、ネットワークは比較的軽量でなければならない。
- 参考スコア(独自算出の注目度): 10.294738095942812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper attacks an emerging challenge of multi-modal retinal disease
recognition. Given a multi-modal case consisting of a color fundus photo (CFP)
and an array of OCT B-scan images acquired during an eye examination, we aim to
build a deep neural network that recognizes multiple vision-threatening
diseases for the given case. As the diagnostic efficacy of CFP and OCT is
disease-dependent, the network's ability of being both selective and
interpretable is important. Moreover, as both data acquisition and manual
labeling are extremely expensive in the medical domain, the network has to be
relatively lightweight for learning from a limited set of labeled multi-modal
samples. Prior art on retinal disease recognition focuses either on a single
disease or on a single modality, leaving multi-modal fusion largely
underexplored. We propose in this paper Multi-Modal Multi-Instance Learning
(MM-MIL) for selectively fusing CFP and OCT modalities. Its lightweight
architecture (as compared to current multi-head attention modules) makes it
suited for learning from relatively small-sized datasets. For an effective use
of MM-MIL, we propose to generate a pseudo sequence of CFPs by over sampling a
given CFP. The benefits of this tactic include well balancing instances across
modalities, increasing the resolution of the CFP input, and finding out regions
of the CFP most relevant with respect to the final diagnosis. Extensive
experiments on a real-world dataset consisting of 1,206 multi-modal cases from
1,193 eyes of 836 subjects demonstrate the viability of the proposed model.
- Abstract(参考訳): 本稿では,マルチモーダル網膜疾患認識の新たな課題について述べる。
眼科検査で得られた色眼底写真(CFP)とOCT B-Scan画像の配列からなるマルチモーダル・ケースを考慮し,各症例に対する複数の視覚障害を認識できるディープニューラルネットワークの構築を目指す。
CFPとOCTの診断効果は疾患に依存しているため、ネットワークの選択的かつ解釈可能な能力は重要である。
さらに、医療分野では、データ取得と手動ラベリングの両方が非常に高価であるため、ラベル付きマルチモーダルサンプルの限られたセットから学習するには、ネットワークは比較的軽量でなければならない。
網膜疾患の認識に関する先行技術は、単一の疾患または単一のモダリティに焦点を合わせ、マルチモーダル融合は大半が未発見のままである。
本稿では,CFP と OCT を選択的に融合する Multi-Modal Multi-Instance Learning (MM-MIL) を提案する。
軽量なアーキテクチャ(現在のマルチヘッドアテンションモジュールと比較して)は、比較的小さなデータセットから学ぶのに適している。
MM-MILを効果的に利用するために、所定のCFPをオーバーサンプリングすることで、CFPの擬似シーケンスを生成することを提案する。
この戦術の利点は、モジュール間のインスタンスのバランスのよく、CFP入力の解像度を増大させ、最終診断に関して最も関係のあるCFPの領域を見つけることである。
836人の被験者1,193人の目から1,206件のマルチモーダルケースからなる実世界のデータセットに関する広範囲な実験により、提案モデルの有効性が示された。
関連論文リスト
- Cross-Fundus Transformer for Multi-modal Diabetic Retinopathy Grading with Cataract [17.77175890577782]
糖尿病網膜症(英: Diabetic retinopathy, DR)は、世界の視覚障害の主要な原因であり、糖尿病の合併症である。
本研究では,カラーファンドス写真(IFP)と赤外線ファンドス写真(IFP)の情報をより正確なDRグレーディングに融合する,新しい多モード深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-01T16:38:49Z) - ETSCL: An Evidence Theory-Based Supervised Contrastive Learning Framework for Multi-modal Glaucoma Grading [7.188153974946432]
緑内障は視覚障害の主要な原因の1つである。
医用画像の類似度が高いことと、不均衡なマルチモーダルデータ分布のため、信頼性の高い特徴を抽出することは依然として困難である。
コントラストのある特徴抽出段階と決定レベルの融合段階からなる新しいフレームワークであるETSCLを提案する。
論文 参考訳(メタデータ) (2024-07-19T11:57:56Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Edge-aware Multi-task Network for Integrating Quantification
Segmentation and Uncertainty Prediction of Liver Tumor on Multi-modality
Non-contrast MRI [21.57865822575582]
本稿では, マルチインデックス定量化, セグメンテーション, 肝腫瘍の不確実性を関連付けるために, エッジ対応マルチタスクネットワーク(EaMtNet)の統一フレームワークを提案する。
提案したモデルでは最先端の技術を大きなマージンで上回り、ダイス類似係数は90.01$pm$1.23、平均絶対誤差は2.72$pm$0.58 mmである。
論文 参考訳(メタデータ) (2023-07-04T16:08:18Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Affinity Feature Strengthening for Accurate, Complete and Robust Vessel
Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。
コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文 参考訳(メタデータ) (2022-11-12T05:39:17Z) - Multi-objective optimization determines when, which and how to fuse deep
networks: an application to predict COVID-19 outcomes [1.8351254916713304]
マルチモーダル・エンド・ツー・エンドモデルのセットアップを最適化する新しい手法を提案する。
我々はAIforCOVIDデータセット上でテストを行い、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-04-07T23:07:33Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Max-Fusion U-Net for Multi-Modal Pathology Segmentation with Attention
and Dynamic Resampling [13.542898009730804]
関連するアルゴリズムの性能は、マルチモーダル情報の適切な融合によって大きく影響を受ける。
We present the Max-Fusion U-Net that achieve a improve pathology segmentation performance。
マルチシーケンスCMRデータセットを併用したMyoPS(Myocardial pathology segmentation)を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-09-05T17:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。