論文の概要: Multi-Scale Target-Aware Representation Learning for Fundus Image Enhancement
- arxiv url: http://arxiv.org/abs/2505.01831v1
- Date: Sat, 03 May 2025 14:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.290904
- Title: Multi-Scale Target-Aware Representation Learning for Fundus Image Enhancement
- Title(参考訳): ファウンダス画像強調のためのマルチスケール目標認識表現学習
- Authors: Haofan Wu, Yin Huang, Yuqing Wu, Qiuyu Yang, Bingfang Wang, Li Zhang, Muhammad Fahadullah Khan, Ali Zia, M. Saleh Memon, Syed Sohail Bukhari, Abdul Fattah Memon, Daizong Ji, Ya Zhang, Ghulam Mustafa, Yin Fang,
- Abstract要約: 高品質の眼底画像は、臨床検診や眼科疾患の診断に欠かせない解剖学的情報を提供する。
近年は、眼底画像の強化が有望な進展をみせている。
本稿では,効率的なファンドス画像強調のためのMTRL-FIE(Multi-scale target-aware representation learning framework)を提案する。
- 参考スコア(独自算出の注目度): 11.652205644265893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality fundus images provide essential anatomical information for clinical screening and ophthalmic disease diagnosis. Yet, due to hardware limitations, operational variability, and patient compliance, fundus images often suffer from low resolution and signal-to-noise ratio. Recent years have witnessed promising progress in fundus image enhancement. However, existing works usually focus on restoring structural details or global characteristics of fundus images, lacking a unified image enhancement framework to recover comprehensive multi-scale information. Moreover, few methods pinpoint the target of image enhancement, e.g., lesions, which is crucial for medical image-based diagnosis. To address these challenges, we propose a multi-scale target-aware representation learning framework (MTRL-FIE) for efficient fundus image enhancement. Specifically, we propose a multi-scale feature encoder (MFE) that employs wavelet decomposition to embed both low-frequency structural information and high-frequency details. Next, we design a structure-preserving hierarchical decoder (SHD) to fuse multi-scale feature embeddings for real fundus image restoration. SHD integrates hierarchical fusion and group attention mechanisms to achieve adaptive feature fusion while retaining local structural smoothness. Meanwhile, a target-aware feature aggregation (TFA) module is used to enhance pathological regions and reduce artifacts. Experimental results on multiple fundus image datasets demonstrate the effectiveness and generalizability of MTRL-FIE for fundus image enhancement. Compared to state-of-the-art methods, MTRL-FIE achieves superior enhancement performance with a more lightweight architecture. Furthermore, our approach generalizes to other ophthalmic image processing tasks without supervised fine-tuning, highlighting its potential for clinical applications.
- Abstract(参考訳): 高品質の眼底画像は、臨床検診や眼科疾患の診断に欠かせない解剖学的情報を提供する。
しかし、ハードウェアの限界、運用上の多様性、患者のコンプライアンスのため、ファンドイメージは低解像度と信号対雑音比に悩まされることが多い。
近年は、眼底画像の強化が有望な進展をみせている。
しかしながら、既存の研究は通常、包括的なマルチスケール情報を復元するための統合された画像強調フレームワークが欠如している、基盤画像の構造的詳細やグローバルな特徴の復元に重点を置いている。
さらに, 医用画像診断に欠かせない画像強調, 例えば病変の標的を特定できる手法は少ない。
これらの課題に対処するために,効率的な基礎画像強調のためのマルチスケールターゲット認識型表現学習フレームワーク(MTRL-FIE)を提案する。
具体的には、ウェーブレット分解を利用して低周波構造情報と高周波情報の両方を埋め込むマルチスケール特徴エンコーダ(MFE)を提案する。
次に、構造保存型階層型デコーダ(SHD)を設計し、実眼底画像復元のためのマルチスケール機能埋め込みを融合する。
SHDは階層的融合とグループ注意機構を統合し、局所的な構造的滑らかさを維持しながら適応的な特徴融合を実現する。
一方、TFA(Target-Aware Feature aggregate)モジュールは、病理領域の強化とアーティファクトの削減に使用される。
複数の眼底画像データセットの実験結果は、眼底画像強調のためのMTRL-FIEの有効性と一般化性を示している。
最先端の手法と比較して、MTRL-FIEはより軽量なアーキテクチャで優れた拡張性能を実現する。
さらに, 本手法は, 微調整を監督せずに他の眼科画像処理タスクに一般化し, 臨床応用の可能性を強調した。
関連論文リスト
- FundusGAN: A Hierarchical Feature-Aware Generative Framework for High-Fidelity Fundus Image Generation [35.46876389599076]
FundusGANは、高忠実度ファンドス画像合成用に特別に設計された新しい階層的特徴認識生成フレームワークである。
我々は、FundusGANが複数のメトリクスにわたって最先端のメソッドを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-22T18:08:07Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
本手法の有効性を医用撮像皮膚データセットに示し, 生成した画像から生成品質が向上し, 微調整された安定拡散に対するプロンプトとの整合性が向上することを示した。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Bridging Synthetic and Real Images: a Transferable and Multiple
Consistency aided Fundus Image Enhancement Framework [61.74188977009786]
画像強調とドメイン適応を同時に行うために,エンドツーエンドの教師支援フレームワークを提案する。
また,教師ネットワークと学生ネットワークのバックボーンとして,マルチステージ型マルチアテンション・ガイド・エンハンスメント・ネットワーク(MAGE-Net)を提案する。
論文 参考訳(メタデータ) (2023-02-23T06:16:15Z) - Multimodal-Boost: Multimodal Medical Image Super-Resolution using
Multi-Attention Network with Wavelet Transform [5.416279158834623]
対応する画像分解能の喪失は、医用画像診断の全体的な性能を低下させる。
ディープラーニングベースのシングルイメージスーパーレゾリューション(SISR)アルゴリズムは、全体的な診断フレームワークに革命をもたらした。
本研究は,低周波データから高頻度情報を学習する深層マルチアテンションモジュールを用いたGAN(Generative Adversarial Network)を提案する。
論文 参考訳(メタデータ) (2021-10-22T10:13:46Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z) - MRI to PET Cross-Modality Translation using Globally and Locally Aware GAN (GLA-GAN) for Multi-Modal Diagnosis of Alzheimer's Disease [0.6597195879147557]
現実像を合成できるGAN(Generative Adversarial Network)は、標準的なデータ拡張手法の代替として大きな可能性を秘めている。
本稿では,グローバルな構造的整合性と局所的細部への忠実さを両立させるマルチパスアーキテクチャにより,グローバルかつ局所的に認識された画像間変換GAN(GLA-GAN)を提案する。
論文 参考訳(メタデータ) (2021-08-04T16:38:33Z) - Multi-institutional Collaborations for Improving Deep Learning-based
Magnetic Resonance Image Reconstruction Using Federated Learning [62.17532253489087]
深層学習法はmr画像再構成において優れた性能をもたらすことが示されている。
これらの方法は、高い取得コストと医療データプライバシー規制のために収集および共有が困難である大量のデータを必要とします。
我々は,異なる施設で利用可能なmrデータを活用し,患者のプライバシーを保ちながら,連合学習(fl)ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2021-03-03T03:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。