Fugu-MT 論文翻訳(概要): Retina-RAG: Retrieval-Augmented Vision-Language Modeling for Joint Retinal Diagnosis and Clinical Report Generation

論文の概要: Retina-RAG: Retrieval-Augmented Vision-Language Modeling for Joint Retinal Diagnosis and Clinical Report Generation

arxiv url: http://arxiv.org/abs/2605.06173v1
Date: Thu, 07 May 2026 12:54:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.798938
Title: Retina-RAG: Retrieval-Augmented Vision-Language Modeling for Joint Retinal Diagnosis and Clinical Report Generation
Title（参考訳）: 網膜RAGによる網膜診断と臨床報告
Authors: Abdelrahman Zaian, Sheethal Bhat, Mohamed Abdalkader, Andreas Maier,
Abstract要約: Retina-RAGは、糖尿病網膜症(DR)の重症度、黄斑浮腫(ME)の検出、レポート生成を共同で行う、低コストなモジュラーフレームワークである。検索拡張生成(RAG)モジュールは、構造化分類器出力とともに硬化した眼科知識を注入する。
参考スコア（独自算出の注目度）: 3.1387745968672274
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Diabetic Retinopathy (DR) is a leading cause of preventable blindness among working-age adults worldwide, yet most automated screening systems are limited to image-level classification and lack clinically structured reporting. We propose Retina-RAG, a low-cost modular framework that jointly performs DR severity grading, macular edema (ME) detection, and report generation. The architecture decouples a high-performance retinal classifier and a parameter-efficient vision-language model (Qwen2.5-VL-7B-Instruct) adapted via Low-Rank Adaptation (LoRA), enabling flexible component integration. A retrieval-augmented generation (RAG) module injects curated ophthalmic knowledge together with structured classifier outputs at inference time to improve diagnostic consistency and reduce hallucinations. Retina-RAG achieves an F1-score of 0.731 for DR grading and 0.948 for ME detection, substantially outperforming zero-shot Qwen (0.096, 0.732) and MMed-RAG (0.541, 0.641) on a retinal disease detection dataset with captions. For report generation, Retina-RAG attains ROUGE-L 0.429 and SBERT similarity 0.884, exceeding all baselines. The full framework operates on a single consumer-grade GPU, demonstrating that clinically structured retinal AI can be achieved with modest computational resources.
Abstract（参考訳）: 糖尿病網膜症(DR: Diabetic Retinopathy)は、世界中の労働者の視覚障害を予防する主要な原因であるが、ほとんどの自動スクリーニングシステムは画像レベルの分類に限られており、臨床的に構造化された報告が欠如している。本稿では,DR重度グレーディング,黄斑浮腫(ME)検出,レポート生成を共同で行う,低コストなモジュラーフレームワークであるRetina-RAGを提案する。このアーキテクチャは、低ランク適応(LoRA)により適応された高性能網膜分類器とパラメータ効率の高い視覚言語モデル(Qwen2.5-VL-7B-Instruct)を分離し、柔軟なコンポーネント統合を実現する。検索増強生成モジュール(RAG)は、予測時に構造化分類器出力とともに硬化した眼科知識を注入し、診断の整合性を改善し、幻覚を低減する。網膜RAGは、DRグレーディング用0.731、ME検出用0.948のF1スコアを達成し、キャプション付き網膜疾患検出データセット上でゼロショットQwen(0.096, 0.732)およびMMed-RAG(0.541, 0.641)を大幅に上回る。レポート生成では、Retina-RAGはROUGE-L 0.429 と SBERT の類似度 0.884 に達し、全てのベースラインを超える。完全なフレームワークは、単一のコンシューマグレードのGPUで動作し、臨床に構造化された網膜AIが、控えめな計算リソースで達成可能であることを実証する。

関連論文リスト

Beyond CLIP: Knowledge-Enhanced Multimodal Transformers for Cross-Modal Alignment in Diabetic Retinopathy Diagnosis [7.945705180020063]
本稿では,網膜基底像,臨床テキスト,構造化された患者データを統合する知識強化型関節埋め込みフレームワークを提案する。このフレームワークはRecall@1の99.94%でほぼ完璧なテキスト・ツー・イメージ検索性能を実現している。
論文参考訳（メタデータ） (2025-12-22T18:41:45Z)
Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning [39.96133625333846]
本稿では,SVR(Synthetic Vasculature Reasoning)について紹介する。これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。実験により,データセット上で訓練された汎用VLMは,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度が得られることがわかった。
論文参考訳（メタデータ） (2025-12-11T19:19:39Z)
Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning [11.537036709742345]
DiagCoTは汎用視覚言語モデル(VLM)に教師付き微調整を適用するフレームワークである DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。 LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
論文参考訳（メタデータ） (2025-09-08T08:01:26Z)
A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。 Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文参考訳（メタデータ） (2025-08-19T14:41:22Z)
Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文参考訳（メタデータ） (2025-08-17T21:54:11Z)
AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。 DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文参考訳（メタデータ） (2025-08-12T06:37:41Z)
RURANET++: An Unsupervised Learning Method for Diabetic Macular Edema Based on SCSE Attention Mechanisms and Dynamic Multi-Projection Head Clustering [13.423253964156117]
RURANET++は、糖尿病黄斑浮腫(DME)の教師なし学習に基づく自動診断システムである特徴処理中、トレーニング済みのGoogLeNetモデルは網膜画像から深い特徴を抽出し、PCAベースの次元を50次元に減らして計算効率を向上する。実験の結果,複数の測定値に対して優れた性能を示し,最大精度(0.8411),精度(0.8593),リコール(0.8411),F1スコアを異常なクラスタリング品質で達成した。
論文参考訳（メタデータ） (2025-02-27T16:06:57Z)
KaLDeX: Kalman Filter based Linear Deformable Cross Attention for Retina Vessel Segmentation [46.57880203321858]
カルマンフィルタを用いた線形変形型クロスアテンション(LDCA)モジュールを用いた血管セグメンテーションのための新しいネットワーク(KaLDeX)を提案する。我々のアプローチは、カルマンフィルタ(KF)ベースの線形変形可能な畳み込み(LD)とクロスアテンション(CA)モジュールの2つの重要なコンポーネントに基づいている。提案手法は,網膜基底画像データセット(DRIVE,CHASE_BD1,STARE)とOCTA-500データセットの3mm,6mmを用いて評価した。
論文参考訳（メタデータ） (2024-10-28T16:00:42Z)
Learning to diagnose cirrhosis from radiological and histological labels with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文参考訳（メタデータ） (2023-02-16T17:06:23Z)
Performance of Dual-Augmented Lagrangian Method and Common Spatial Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文参考訳（メタデータ） (2020-10-13T20:50:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。