論文の概要: Multi-modal and Multi-view Fundus Image Fusion for Retinopathy Diagnosis via Multi-scale Cross-attention and Shifted Window Self-attention
- arxiv url: http://arxiv.org/abs/2504.09106v1
- Date: Sat, 12 Apr 2025 07:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:23.810339
- Title: Multi-modal and Multi-view Fundus Image Fusion for Retinopathy Diagnosis via Multi-scale Cross-attention and Shifted Window Self-attention
- Title(参考訳): マルチスケールクロスアテンションとシフトウィンドウ自己アテンションによる網膜症診断のためのマルチモーダル・マルチビュー画像融合
- Authors: Yonghao Huang, Leiting Chen, Chuan Zhou,
- Abstract要約: マルチモーダル・マルチビュー・ファンドス画像の同時解釈は網膜症予防に重要である。
マルチスケール・クロスアテンションに基づくマルチモーダル・ファンドス画像融合法を提案する。
また、眼科医が作業負荷を減らし、診断精度を向上させるために網膜症診断フレームワークを設計した。
- 参考スコア(独自算出の注目度): 4.076237636695921
- License:
- Abstract: The joint interpretation of multi-modal and multi-view fundus images is critical for retinopathy prevention, as different views can show the complete 3D eyeball field and different modalities can provide complementary lesion areas. Compared with single images, the sequence relationships in multi-modal and multi-view fundus images contain long-range dependencies in lesion features. By modeling the long-range dependencies in these sequences, lesion areas can be more comprehensively mined, and modality-specific lesions can be detected. To learn the long-range dependency relationship and fuse complementary multi-scale lesion features between different fundus modalities, we design a multi-modal fundus image fusion method based on multi-scale cross-attention, which solves the static receptive field problem in previous multi-modal medical fusion methods based on attention. To capture multi-view relative positional relationships between different views and fuse comprehensive lesion features between different views, we design a multi-view fundus image fusion method based on shifted window self-attention, which also solves the computational complexity of the multi-view fundus fusion method based on self-attention is quadratic to the size and number of multi-view fundus images. Finally, we design a multi-task retinopathy diagnosis framework to help ophthalmologists reduce workload and improve diagnostic accuracy by combining the proposed two fusion methods. The experimental results of retinopathy classification and report generation tasks indicate our method's potential to improve the efficiency and reliability of retinopathy diagnosis in clinical practice, achieving a classification accuracy of 82.53\% and a report generation BlEU-1 of 0.543.
- Abstract(参考訳): マルチモーダル画像と多視点画像の同時解釈は網膜症予防に重要である。
単一画像と比較すると, マルチモーダル・マルチビュー・ファンドス画像におけるシーケンス関係は, 病変の特徴の長距離依存性を含む。
これらの配列における長距離依存関係をモデル化することにより、病変領域をより包括的にマイニングし、モダリティ特異的な病変を検出することができる。
異なる基底モード間の長距離依存性関係と相補的な多重スケール病変の特徴を学習するために,複数スケールの相互注意に基づく多モード基底画像融合法を設計し,注意に基づく従来の多モード医用融合法における静的受容場問題を解決した。
異なるビュー間の相対的な位置関係と、異なるビュー間の包括的病変の特徴を融合させるため、シフトウインドウ自己アテンションに基づくマルチビュー・ファンドス画像融合法を設計し、自己アテンションに基づくマルチビュー・ファンドス融合法の計算複雑性を、マルチビュー・ファンドス画像のサイズと数に2次的に解決する。
最後に、眼科医が作業量を削減し、提案した2つの融合法を組み合わせることで診断精度を向上させるために、マルチタスク網膜症診断フレームワークを設計する。
臨床における網膜症分類および報告作成タスクの実験結果から,臨床における網膜症診断の効率と信頼性を向上させるための方法の可能性が示唆され,分類精度82.53\%,レポート生成BlEU-1が0.543であった。
関連論文リスト
- MultiEYE: Dataset and Benchmark for OCT-Enhanced Retinal Disease Recognition from Fundus Images [4.885485496458059]
眼疾患診断用マルチモーダル・マルチクラスデータセットであるMultiEYEについて述べる。
OCT画像から疾患関連知識を抽出するためのOCT支援概念蒸留アプローチ(OCT-CoDA)を提案する。
提案するOCT-CoDAは,臨床応用の可能性が高く,顕著な結果と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-12T16:08:43Z) - Unsupervised Multimodal 3D Medical Image Registration with Multilevel Correlation Balanced Optimization [22.633633605566214]
マルチレベル相関バランス最適化に基づく教師なしマルチモーダル医用画像登録手法を提案する。
異なるモードの術前医療画像に対して、変形場間の最大融合により有効な情報のアライメントと積み重ねを実現する。
論文 参考訳(メタデータ) (2024-09-08T09:38:59Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model [2.507050016527729]
トリモーダル医療画像融合は、病気の形状、位置、生物学的活動をより包括的に見ることができる。
画像装置の限界や患者の安全への配慮により、医療画像の品質は制限されることが多い。
画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要である。
論文 参考訳(メタデータ) (2024-04-26T12:13:41Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - A New Multimodal Medical Image Fusion based on Laplacian Autoencoder
with Channel Attention [3.1531360678320897]
ディープラーニングモデルは、非常に堅牢で正確なパフォーマンスでエンドツーエンドの画像融合を実現した。
ほとんどのDLベースの融合モデルは、学習可能なパラメータや計算量を最小限に抑えるために、入力画像上でダウンサンプリングを行う。
本稿では,ラープラシア・ガウス統合とアテンションプールを融合したマルチモーダル医用画像融合モデルを提案する。
論文 参考訳(メタデータ) (2023-10-18T11:29:53Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation
with Transformers [8.139069987207494]
コンボリューション層と強力なアテンション機構を用いた多視点画像情報をマージするトランスフォーマーベースのアーキテクチャであるTransFusionを提案する。
特に、ディバージェント・フュージョン・アテンション(DiFA)モジュールは、リッチ・クロスビュー・コンテキスト・モデリングとセマンティック・インテリジェンス・マイニングのために提案されている。
論文 参考訳(メタデータ) (2022-03-21T04:02:54Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。