論文の概要: Beyond CLIP: Knowledge-Enhanced Multimodal Transformers for Cross-Modal Alignment in Diabetic Retinopathy Diagnosis
- arxiv url: http://arxiv.org/abs/2512.19663v1
- Date: Mon, 22 Dec 2025 18:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.882117
- Title: Beyond CLIP: Knowledge-Enhanced Multimodal Transformers for Cross-Modal Alignment in Diabetic Retinopathy Diagnosis
- Title(参考訳): 糖尿病網膜症診断におけるクロスモーダルアライメントのための知識強化型マルチモーダルトランスフォーマ
- Authors: Argha Kamal Samanta, Harshika Goyal, Vasudha Joshi, Tushar Mungle, Pabitra Mitra,
- Abstract要約: 本稿では,網膜基底像,臨床テキスト,構造化された患者データを統合する知識強化型関節埋め込みフレームワークを提案する。
このフレームワークはRecall@1の99.94%でほぼ完璧なテキスト・ツー・イメージ検索性能を実現している。
- 参考スコア(独自算出の注目度): 7.945705180020063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diabetic retinopathy (DR) is a leading cause of preventable blindness worldwide, demanding accurate automated diagnostic systems. While general-domain vision-language models like Contrastive Language-Image Pre-Training (CLIP) perform well on natural image tasks, they struggle in medical domain applications, particularly in cross-modal retrieval for ophthalmological images. We propose a novel knowledge-enhanced joint embedding framework that integrates retinal fundus images, clinical text, and structured patient data through a multimodal transformer architecture to address the critical gap in medical image-text alignment. Our approach employs separate encoders for each modality: a Vision Transformer (ViT-B/16) for retinal images, Bio-ClinicalBERT for clinical narratives, and a multilayer perceptron for structured demographic and clinical features. These modalities are fused through a joint transformer with modality-specific embeddings, trained using multiple objectives including contrastive losses between modality pairs, reconstruction losses for images and text, and classification losses for DR severity grading according to ICDR and SDRG schemes. Experimental results on the Brazilian Multilabel Ophthalmological Dataset (BRSET) demonstrate significant improvements over baseline models. Our framework achieves near-perfect text-to-image retrieval performance with Recall@1 of 99.94% compared to fine-tuned CLIP's 1.29%, while maintaining state-of-the-art classification accuracy of 97.05% for SDRG and 97.97% for ICDR. Furthermore, zero-shot evaluation on the unseen DeepEyeNet dataset validates strong generalizability with 93.95% Recall@1 versus 0.22% for fine-tuned CLIP. These results demonstrate that our multimodal training approach effectively captures cross-modal relationships in the medical domain, establishing both superior retrieval capabilities and robust diagnostic performance.
- Abstract(参考訳): 糖尿病網膜症(DR)は、世界中で予防可能な失明の原因であり、正確な自動診断システムを必要としている。
Contrastive Language-Image Pre-Training (CLIP)のような一般的なドメインビジョン言語モデルは、自然画像のタスクではうまく機能するが、特に眼科領域での画像のクロスモーダル検索では苦戦している。
本稿では,網膜基底画像,臨床テキスト,構造化された患者データをマルチモーダルトランスフォーマーアーキテクチャにより統合し,医用画像・テキストアライメントにおける重要なギャップに対処する,新しい知識強化型共同埋め込みフレームワークを提案する。
本手法では、網膜画像用視覚変換器(ViT-B/16)、臨床物語用バイオクリニカルBERT、構造化された人口統計学的特徴および臨床特徴用多層パーセプトロンを用いている。
これらのモダリティは、モダリティ固有の埋め込みを持つジョイントトランスフォーマーを通じて融合され、モダリティペア間のコントラスト損失、画像とテキストの再構成損失、ICDRおよびSDRGスキームによるDR重度グレーディングの分類損失など、複数の目的を用いて訓練される。
ブラジルのBRSET(Multilabel Ophthalmological Dataset)の実験結果は、ベースラインモデルよりも大幅に改善されている。
Recall@1が99.94%、CLIPが1.29%、SDRGが97.05%、ICDRが97.97%である。
さらに、目に見えないDeepEyeNetデータセットのゼロショット評価は、微調整のCLIPでは0.22%に対して93.95%のRecall@1で強力な一般化性を検証する。
以上の結果から,我々のマルチモーダルトレーニングアプローチは医療領域における相互モーダル関係を効果的に捉え,優れた検索能力と堅牢な診断性能の両立を図っている。
関連論文リスト
- A WDLoRA-Based Multimodal Generative Framework for Clinically Guided Corneal Confocal Microscopy Image Synthesis in Diabetic Neuropathy [8.701084151107652]
糖尿病性末梢神経障害(DPN)における角膜共焦点顕微鏡による小線維損傷の評価
強靭で自動的なディープラーニングに基づく診断モデルの開発は、角膜神経形態学におけるラベル付きデータの不足ときめ細かい変化によって制限される。
臨床誘導CCM画像合成のためのWDLoRAに基づくマルチモーダル生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-14T09:32:44Z) - Quasi-multimodal-based pathophysiological feature learning for retinal disease diagnosis [4.437523386839875]
多モードデータ合成と融合を統合した統合フレームワークが網膜疾患の分類とグレーディングのために提案されている。
提案する学習システムは,画像空間と特徴空間の両方の可視化を通して,徹底的に解釈される。
この研究は網膜疾患スクリーニングの精度と効率を高めるだけでなく、様々な医用画像モダリティにまたがるデータ拡張のためのスケーラブルなフレームワークも提供する。
論文 参考訳(メタデータ) (2026-02-03T15:13:57Z) - One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training [45.49415063761575]
EndoRareは、単一の参照画像から多種多様な高忠実度病変を合成する、ワンショットでリトレーニング不要な生成フレームワークである。
われわれはこの枠組みを4つの稀な病理から検証した。
これらの結果は, コンピュータ支援診断と臨床教育の両方において, 希少なギャップを埋める実践的でデータ効率のよい方法を確立している。
論文 参考訳(メタデータ) (2025-12-30T15:07:09Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - DRetNet: A Novel Deep Learning Framework for Diabetic Retinopathy Diagnosis [8.234135343778993]
現在のDR検出システムは、画質の悪い画像、解釈可能性の欠如、ドメイン固有の知識の不十分な統合に苦慮している。
3つの革新的なコントリビューションを統合する新しいフレームワークを紹介します。
フレームワークの精度は92.7%、精度は92.5%、リコールは92.6%、F1スコアは92.5%、AUCは97.8%、mAPは0.96、MCCは0.85である。
論文 参考訳(メタデータ) (2025-09-01T02:27:16Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy [0.0]
本稿では,高忠実かつ多様なDRファウンダス画像を生成するためのフレームワークを提案する。
生成画像内のDR重大度と視覚的特徴を包括的に制御する。
我々は、条件付きで生成したDR画像をグレードで操作し、データセットの多様性をさらに向上する。
論文 参考訳(メタデータ) (2024-09-11T17:08:28Z) - OTRE: Where Optimal Transport Guided Unpaired Image-to-Image Translation
Meets Regularization by Enhancing [4.951748109810726]
正確な診断と自動解析のために、最適な網膜画像品質が義務付けられている。
そこで本研究では,低品質の網膜CFPを高画質のCFPにマッピングするための画像対画像変換手法を提案する。
統合されたフレームワークOTREを3つの公開網膜画像データセット上で検証した。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images [55.83984261827332]
本稿では,信頼性の高いマルチスケールウェーブレットエンハンストランスネットワークを提案する。
本研究では,ウェーブレット型特徴抽出器ネットワークとマルチスケール変圧器モジュールを統合したセグメンテーションバックボーンを開発した。
提案手法は,他の最先端セグメンテーション手法と比較して信頼性の高いセグメンテーション精度を実現する。
論文 参考訳(メタデータ) (2022-12-01T07:32:56Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。