論文の概要: Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading
- arxiv url: http://arxiv.org/abs/2602.21944v1
- Date: Wed, 25 Feb 2026 14:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.859513
- Title: Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading
- Title(参考訳): 糖尿病網膜症における多視点グラフの融合と再構成の学習
- Authors: Haoran Li, Yuxin Lin, Huan Wang, Xiaoling Luo, Qi Zhu, Jiahua Shi, Huaming Chen, Bo Du, Johan Barthelemy, Zongyan Xue, Jun Shen, Yong Xu,
- Abstract要約: 糖尿病網膜症(DR:diabetic retinopathy)は、視覚障害の主要な原因の一つである。
最近の臨床実践では、多視点眼底画像を用いたDR検出が視野の広い範囲で行われている。
本稿では、DRグレーディングのためのエンドツーエンドのMulti-View Graph FusionフレームワークMVGFDRを提案する。
- 参考スコア(独自算出の注目度): 45.02913606252357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diabetic retinopathy (DR) is one of the leading causes of vision loss worldwide, making early and accurate DR grading critical for timely intervention. Recent clinical practices leverage multi-view fundus images for DR detection with a wide coverage of the field of view (FOV), motivating deep learning methods to explore the potential of multi-view learning for DR grading. However, existing methods often overlook the inter-view correlations when fusing multi-view fundus images, failing to fully exploit the inherent consistency across views originating from the same patient. In this work, we present MVGFDR, an end-to-end Multi-View Graph Fusion framework for DR grading. Different from existing methods that directly fuse visual features from multiple views, MVGFDR is equipped with a novel Multi-View Graph Fusion (MVGF) module to explicitly disentangle the shared and view-specific visual features. Specifically, MVGF comprises three key components: (1) Multi-view Graph Initialization, which constructs visual graphs via residual-guided connections and employs Discrete Cosine Transform (DCT) coefficients as frequency-domain anchors; (2) Multi-view Graph Fusion, which integrates selective nodes across multi-view graphs based on frequency-domain relevance to capture complementary view-specific information; and (3) Masked Cross-view Reconstruction, which leverages masked reconstruction of shared information across views to facilitate view-invariant representation learning. Extensive experimental results on MFIDDR, by far the largest multi-view fundus image dataset, demonstrate the superiority of our proposed approach over existing state-of-the-art approaches in diabetic retinopathy grading.
- Abstract(参考訳): 糖尿病網膜症(DR: Diabetic retinopathy)は、視覚障害の主要な原因の一つであり、早期かつ正確なDRグレーディングを時間的介入に欠かせないものにしている。
近年の臨床実践では、多視点ファウンダス画像をDR検出に活用し、視野(FOV)の広い範囲をカバーし、深層学習法を動機付け、DRグレーディングにおける多視点学習の可能性を探究している。
しかし, 既存手法では, 多視点眼底画像の融合において, 視線間の相関を見落とし, 同一患者からの視線間の一貫性を十分に活用できない場合が多い。
本稿では、DRグレーディングのためのエンドツーエンドのMulti-View Graph FusionフレームワークであるMVGFDRについて述べる。
複数のビューから直接視覚的特徴を融合させる既存の方法とは異なり、MVGFDRは、共有およびビュー固有の視覚的特徴を明示的に切り離す新しいMVGFモジュールを備えている。
具体的には,(1)残留誘導接続を介して視覚グラフを構築し,離散コサイン変換(DCT)係数を周波数領域アンカーとして利用する多視点グラフ初期化,(2)周波数領域関連性に基づく多視点グラフ間の選択ノードを統合して相補的なビュー固有情報をキャプチャする多視点グラフ融合,(3)ビュー間の共有情報のマスク付き再構築を利用してビュー間の表現学習を促進するマズード・クロスビュー再構成,の3つの主要な構成要素から構成される。
MFIDDRの膨大な実験結果は、糖尿病網膜症における既存の最先端アプローチに対する提案手法の優位性を示している。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - MV-Swin-T: Mammogram Classification with Multi-view Swin Transformer [0.257133335028485]
マンモグラフィ画像分類における課題に対処するために,トランスフォーマーに基づく革新的なマルチビューネットワークを提案する。
提案手法では,ウィンドウベースの動的アテンションブロックを導入し,マルチビュー情報の効果的な統合を容易にする。
論文 参考訳(メタデータ) (2024-02-26T04:41:04Z) - Parkinson's Disease Classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features [5.660131312162423]
パーキンソン病(PD)は世界中の何百万もの人に影響を与え、運動に影響を与えている。
以前の研究では、ディープラーニングをPD予測に利用し、主に医療画像に焦点を当て、データの基盤となる多様体構造を無視した。
本研究では,画像特徴と非画像特徴の両方を包含するマルチモーダルアプローチを提案し,PD分類にコントラッシブなクロスビューグラフ融合を利用する。
論文 参考訳(メタデータ) (2023-11-25T02:32:46Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Multi-Scale Relational Graph Convolutional Network for Multiple Instance
Learning in Histopathology Images [2.6663738081163726]
マルチスケールグラフ畳み込みネットワーク(MS-RGCN)をマルチラーニング手法として導入する。
病理組織像パッチと近隣のパッチと他のスケールのパッチとの関係をグラフとしてモデル化する。
前立腺癌の病理組織像を実験的に検討し,パッチから抽出した特徴に基づいて拡大群を予測した。
論文 参考訳(メタデータ) (2022-12-17T02:26:42Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。