論文の概要: Cross-Architecture Knowledge Distillation (KD) for Retinal Fundus Image Anomaly Detection on NVIDIA Jetson Nano
- arxiv url: http://arxiv.org/abs/2506.18220v1
- Date: Mon, 23 Jun 2025 00:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.812613
- Title: Cross-Architecture Knowledge Distillation (KD) for Retinal Fundus Image Anomaly Detection on NVIDIA Jetson Nano
- Title(参考訳): NVIDIA Jetson Nanoにおける網膜基底像異常検出のためのクロスアーキテクチャ知識蒸留(KD)
- Authors: Berk Yilmaz, Aniruddh Aiyengar,
- Abstract要約: 我々は、I-JEPA自己教師型学習を用いて事前訓練した高容量視覚変換器(ViT)教師モデルを訓練し、眼底画像を正常、糖尿病網膜症、緑内障、白内障の4つのクラスに分類する。
私たちの研究は、低リソース領域の網膜障害に対するスケーラブルでAI駆動のトリアージソリューションの例です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early and accurate identification of retinal ailments is crucial for averting ocular decline; however, access to dependable diagnostic devices is not often available in low-resourced settings. This project proposes to solve that by developing a lightweight, edge-device deployable disease classifier using cross-architecture knowledge distilling. We first train a high-capacity vision transformer (ViT) teacher model, pre-trained using I-JEPA self-supervised learning, to classify fundus images into four classes: Normal, Diabetic Retinopathy, Glaucoma, and Cataract. We kept an Internet of Things (IoT) focus when compressing to a CNN-based student model for deployment in resource-limited conditions, such as the NVIDIA Jetson Nano. This was accomplished using a novel framework which included a Partitioned Cross-Attention (PCA) projector, a Group-Wise Linear (GL) projector, and a multi-view robust training method. The teacher model has 97.4 percent more parameters than the student model, with it achieving 89 percent classification with a roughly 93 percent retention of the teacher model's diagnostic performance. The retention of clinical classification behavior supports our method's initial aim: compression of the ViT while retaining accuracy. Our work serves as an example of a scalable, AI-driven triage solution for retinal disorders in under-resourced areas.
- Abstract(参考訳): 網膜障害の早期かつ正確な同定は、視力低下を防ぐために重要であるが、信頼性の高い診断装置へのアクセスは、低リソース環境では利用できないことが多い。
本研究は, クロスアーキテクチャ知識蒸留を用いた軽量・エッジデバイス展開型病型分類器の開発により, その問題を解決することを提案する。
まず、I-JEPA自己教師型学習を用いて事前学習した高容量視覚変換器(ViT)教師モデルを用いて、眼底画像を正常、糖尿病網膜症、緑内障、白内障の4つのクラスに分類する。
NVIDIA Jetson Nanoのようなリソース制限された環境でのデプロイメントのために、CNNベースの学生モデルに圧縮する場合、IoT(Internet of Things)に注目しました。
これは、PCA(Partitioned Cross-Attention)プロジェクタ、GL(Group-Wise Linear)プロジェクタ、マルチビューロバストなトレーニング手法を含む新しいフレームワークを用いて達成された。
教師モデルは、生徒モデルよりも97.4%多いパラメータを持ち、教師モデルの診断性能を約93%保持する99%の分類を達成している。
臨床分類行動の保持は, 精度を維持しつつ, ViT の圧縮という方法の当初の目的を裏付けるものである。
私たちの研究は、低リソース領域の網膜障害に対するスケーラブルでAI駆動のトリアージソリューションの例です。
関連論文リスト
- Lifelong Whole Slide Image Analysis: Online Vision-Language Adaptation and Past-to-Present Gradient Distillation [1.1497371646067622]
全スライド画像(WSI)は、正確ながん診断と予後において重要な役割を担っている。
WSIのサイズがギガピクセルであることを考えると、ストレージ、処理、モデルトレーニングの点で困難を呈している。
本稿では,全スライディング画像(WSI)解析における生涯学習を向上する手法であるADaFGradを紹介する。
論文 参考訳(メタデータ) (2025-05-04T04:46:08Z) - Artificial Intelligence-Driven Prognostic Classification of COVID-19 Using Chest X-rays: A Deep Learning Approach [0.0]
本研究では,Chest X線画像を用いて,新型コロナウイルスの重症度(中・中・重症度)を分類するための高精度深層学習モデルを提案する。
平均精度は97%,特異性は99%,感度は87%,F1スコアは93.11%であった。
これらの結果は、実際の臨床応用におけるモデルの可能性を示している。
論文 参考訳(メタデータ) (2025-03-17T15:27:21Z) - Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network [0.0]
我々は,CNNに基づく分類モデルの訓練のためのデータセットを合成するために,GANに基づくデータ生成手法を提案する。
モデル分類の精度を元の眼画像と比較すると、近視の精度は78.6%、緑内障の88.6%、白内障の84.6%、全体分類の精度は84.6%である。
論文 参考訳(メタデータ) (2025-02-14T17:47:18Z) - Vision Transformers for Small Histological Datasets Learned through
Knowledge Distillation [1.4724454726700604]
視覚変換器(ViT)は、診断アルゴリズムを実行する前に、人工物を検出して排除することができる。
堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでそれらをトレーニングすることだ。
気泡検出タスクにおけるViTの分類性能を向上させるための生徒-教師のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-27T05:09:03Z) - Self-supervised contrastive learning of echocardiogram videos enables
label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。
左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文 参考訳(メタデータ) (2022-07-23T19:17:26Z) - SSD-KD: A Self-supervised Diverse Knowledge Distillation Method for
Lightweight Skin Lesion Classification Using Dermoscopic Images [62.60956024215873]
皮膚がんは最も一般的な悪性腫瘍の1つであり、人口に影響を与え、世界中で経済的な重荷を負っている。
皮膚がん検出のほとんどの研究は、ポータブルデバイス上での計算資源の制限を考慮せずに、高い予測精度を追求している。
本研究は,皮膚疾患分類のための汎用的なKDフレームワークに多様な知識を統一する,SSD-KDと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T06:54:29Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z) - Optimal Transfer Learning Model for Binary Classification of Funduscopic
Images through Simple Heuristics [0.8370915747360484]
深層学習ニューラルネットワークを用いて、眼内画像の視覚的表現を診断する。
本稿では, 病原体が健康であるか, 病原体なのかを, 低コストで推定する, 病原体分類の統一モデルを提案する。
論文 参考訳(メタデータ) (2020-02-11T03:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。