論文の概要: InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2507.12669v1
- Date: Wed, 16 Jul 2025 23:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.292987
- Title: InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion
- Title(参考訳): InSight:マルチモーダルフュージョンを用いた多眼症検出のためのAIモバイルスクリーニングツール
- Authors: Ananya Raghu, Anisha Raghu, Alice S. Tang, Yannis M. Paulus, Tyson N. Kim, Tomiko T. Oskotsky,
- Abstract要約: 加齢に伴う黄斑変性、緑内障、糖尿病網膜症(DR)、糖尿病性黄斑浮腫、病理性ミオパチーは世界中の数億人に影響を与える。
InSightは、患者のメタデータと眼底画像を組み合わせて、一般的な5つの眼疾患の正確な診断を行うAIベースのアプリである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background/Objectives: Age-related macular degeneration, glaucoma, diabetic retinopathy (DR), diabetic macular edema, and pathological myopia affect hundreds of millions of people worldwide. Early screening for these diseases is essential, yet access to medical care remains limited in low- and middle-income countries as well as in resource-limited settings. We develop InSight, an AI-based app that combines patient metadata with fundus images for accurate diagnosis of five common eye diseases to improve accessibility of screenings. Methods: InSight features a three-stage pipeline: real-time image quality assessment, disease diagnosis model, and a DR grading model to assess severity. Our disease diagnosis model incorporates three key innovations: (a) Multimodal fusion technique (MetaFusion) combining clinical metadata and images; (b) Pretraining method leveraging supervised and self-supervised loss functions; and (c) Multitask model to simultaneously predict 5 diseases. We make use of BRSET (lab-captured images) and mBRSET (smartphone-captured images) datasets, both of which also contain clinical metadata for model training/evaluation. Results: Trained on a dataset of BRSET and mBRSET images, the image quality checker achieves near-100% accuracy in filtering out low-quality fundus images. The multimodal pretrained disease diagnosis model outperforms models using only images by 6% in balanced accuracy for BRSET and 4% for mBRSET. Conclusions: The InSight pipeline demonstrates robustness across varied image conditions and has high diagnostic accuracy across all five diseases, generalizing to both smartphone and lab captured images. The multitask model contributes to the lightweight nature of the pipeline, making it five times computationally efficient compared to having five individual models corresponding to each disease.
- Abstract(参考訳): 背景/対象:加齢に伴う黄斑変性、緑内障、糖尿病性網膜症(DR)、糖尿病性黄斑浮腫、病理性ミオパチーは世界中の何億人もの人々に影響を及ぼす。
これらの疾患の早期スクリーニングは不可欠であるが、低所得国や中所得国では医療へのアクセスが制限されている。
InSightは、患者のメタデータと眼底画像を組み合わせて、一般的な5つの眼疾患の正確な診断を行い、スクリーニングのアクセシビリティを向上させるAIベースのアプリである。
方法: InSightは、リアルタイム画像品質評価、疾患診断モデル、重症度を評価するためのDRグレーディングモデルという3段階のパイプラインを備えている。
私たちの疾患診断モデルは、3つの重要なイノベーションを取り入れています。
(a)臨床メタデータと画像を組み合わせたマルチモーダル融合技術(メタフュージョン)
ロ 監督的・自己監督的損失関数を利用した事前訓練方法及び
(c)5つの疾患を同時に予測するマルチタスクモデル。
BRSET (lab-captured image) とmBRSET (smartphone-captured images) のデータセットを使用し、どちらもモデルトレーニング/評価のための臨床メタデータを含んでいる。
結果: BRSET画像とmBRSET画像のデータセットに基づいて,低品質の基底画像のフィルタリングにおいて,画像品質チェッカーの精度をほぼ100%向上させる。
マルチモーダル事前訓練疾患診断モデルは、BRSETのバランス精度が6%、mBRSETの4%で画像のみを用いてモデルより優れている。
結論: InSightパイプラインは、さまざまな画像条件にまたがる堅牢性を示し、5つの疾患すべてに対して高い診断精度を示し、スマートフォンとラボで撮影された画像の両方に一般化する。
マルチタスクモデルはパイプラインの軽量な性質に寄与し、各疾患に対応する5つの個別モデルを持つことと比較して計算効率が5倍になる。
関連論文リスト
- iMedImage Technical Report [5.0953390013898705]
染色体核型解析は遺伝性疾患の診断に不可欠であるが, 構造異常の検出は依然として困難である。
一般医用画像認識のためのエンド・ツー・エンド・エンド・モデルiMedImageを開発した。
論文 参考訳(メタデータ) (2025-03-27T03:25:28Z) - Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors [0.0]
この研究は、MRIおよびCTスキャンのいくつかのデータセットにおいて、Swin TransformerやMaxViTを含むVision Transformersアーキテクチャのパフォーマンスを評価する。
その結果、Swin Transformerは高い精度を示し、個々のデータセットの平均で99%、組み合わせたデータセットで99.4%の精度を実現した。
論文 参考訳(メタデータ) (2025-02-08T10:35:51Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Lightening Anything in Medical Images [23.366303785451684]
我々はUniMIEという名前のUniMIE(Universal Medical Image Enhancement)のための、先駆的なトレーニングフリー拡散モデルを導入する。
UniMIEは、微調整を必要とせず、様々な医用画像モダリティにまたがる教師なしの強化能力を実証している。
我々は、13の画像モダリティと15以上の医療タイプを総合的に評価し、他のモダリティ特化モデルやデータ非効率モデルよりも優れた品質、堅牢性、正確性を示す。
論文 参考訳(メタデータ) (2024-06-01T05:07:50Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Improved Automatic Diabetic Retinopathy Severity Classification Using
Deep Multimodal Fusion of UWF-CFP and OCTA Images [1.6449510885987357]
糖尿病網膜症(英: Diabetic Retinopathy、DR)は、世界中の何百万人もの患者に影響を及ぼす糖尿病の合併症である。
近年のイメージング技術の進歩は、DRを早期に検出する機会を提供するが、同時に大きな課題も生んでいる。
本研究は,これらの画像モダリティを利用してDR分類を顕著に向上する,新しいマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:35:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Convolutional-LSTM for Multi-Image to Single Output Medical Prediction [55.41644538483948]
発展途上国の一般的なシナリオは、複数の理由からボリュームメタデータが失われることである。
ヒトの診断過程を模倣したマルチイメージから単一診断モデルを得ることが可能である。
論文 参考訳(メタデータ) (2020-10-20T04:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。