論文の概要: ViT-2SPN: Vision Transformer-based Dual-Stream Self-Supervised Pretraining Networks for Retinal OCT Classification
- arxiv url: http://arxiv.org/abs/2501.17260v1
- Date: Tue, 28 Jan 2025 19:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:59.043651
- Title: ViT-2SPN: Vision Transformer-based Dual-Stream Self-Supervised Pretraining Networks for Retinal OCT Classification
- Title(参考訳): ViT-2SPN:視覚変換器を用いた網膜CT分類のためのデュアルストリームセルフスーパービジョンプレトレーニングネットワーク
- Authors: Mohammadreza Saraei, Igor Kozak, Eung-Joo Lee,
- Abstract要約: Vision Transformer-based Dual-Stream Self-Supervised Pretraining Network (ViT-2SPN) は、特徴抽出を強化し、診断精度を向上させるために設計された新しいフレームワークである。
ViT-2SPNは3段階のワークフロー、Supervised Pretraining、Self-Supervised Pretraining、Supervised Fine-Tuningを採用している。
ViT-2SPN は平均 AUC 0.93 、精度 0.77 、精度 0.81 、リコール 0.75 、F1 スコア 0.76 を達成し、既存の SSP 法より優れている。
- 参考スコア(独自算出の注目度): 0.10241134756773226
- License:
- Abstract: Optical Coherence Tomography (OCT) is a non-invasive imaging modality essential for diagnosing various eye diseases. Despite its clinical significance, developing OCT-based diagnostic tools faces challenges, such as limited public datasets, sparse annotations, and privacy concerns. Although deep learning has made progress in automating OCT analysis, these challenges remain unresolved. To address these limitations, we introduce the Vision Transformer-based Dual-Stream Self-Supervised Pretraining Network (ViT-2SPN), a novel framework designed to enhance feature extraction and improve diagnostic accuracy. ViT-2SPN employs a three-stage workflow: Supervised Pretraining, Self-Supervised Pretraining (SSP), and Supervised Fine-Tuning. The pretraining phase leverages the OCTMNIST dataset (97,477 unlabeled images across four disease classes) with data augmentation to create dual-augmented views. A Vision Transformer (ViT-Base) backbone extracts features, while a negative cosine similarity loss aligns feature representations. Pretraining is conducted over 50 epochs with a learning rate of 0.0001 and momentum of 0.999. Fine-tuning is performed on a stratified 5.129% subset of OCTMNIST using 10-fold cross-validation. ViT-2SPN achieves a mean AUC of 0.93, accuracy of 0.77, precision of 0.81, recall of 0.75, and an F1 score of 0.76, outperforming existing SSP-based methods.
- Abstract(参考訳): 光コヒーレンス・トモグラフィ(OCT)は、眼疾患の診断に欠かせない非侵襲的な画像モダリティである。
その臨床的重要性にもかかわらず、OCTベースの診断ツールの開発は、限られた公開データセット、スパースアノテーション、プライバシー上の懸念といった課題に直面している。
ディープラーニングはOCT分析の自動化に進歩しているが、これらの課題は未解決のままである。
これらの制約に対処するために,視覚変換器を用いたDual-Stream Self-Supervised Pretraining Network (ViT-2SPN) を導入する。
ViT-2SPNは3段階のワークフロー、Supervised Pretraining、Self-Supervised Pretraining (SSP)、Supervised Fine-Tuningを採用している。
事前トレーニングフェーズでは、OCTMNISTデータセット(4つの疾患クラスにまたがるラベルなしイメージ97,477)とデータ拡張を活用して、二重拡張ビューを生成する。
Vision Transformer (ViT-Base) は特徴を抽出し、負のコサイン類似性損失は特徴表現を整列させる。
プレトレーニングは50回以上行われ、学習率は0.0001、運動量は0.999である。
微細チューニングは10倍のクロスバリデーションを用いてOCTMNISTの5.129%の成層化サブセットで実行される。
ViT-2SPN は平均 AUC 0.93 、精度 0.77 、精度 0.81 、リコール 0.75 、F1 スコア 0.76 を達成し、既存の SSP 法より優れている。
関連論文リスト
- Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - Virtual imaging trials improved the transparency and reliability of AI systems in COVID-19 imaging [1.6040478776985583]
本研究は、CTと胸部X線撮影(CXR)を用いた新型コロナウイルス診断における畳み込みニューラルネットワーク(CNN)の使用に焦点を当てる。
複数のAIモデル、すなわち3D ResNet-likeと2D EfficientNetv2アーキテクチャを開発し、テストした。
最も多様なデータセットでトレーニングされたモデルでは、AUCがCTで0.73から0.76、CXRで0.70から0.73まで、最高の外部テスト性能を示した。
論文 参考訳(メタデータ) (2023-08-17T19:12:32Z) - Bi-ViT: Pushing the Limit of Vision Transformer Quantization [38.24456467950003]
ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。
本研究では, 学習可能なスケーリング係数を導入して, 消失した勾配を再活性化し, 理論的, 実験的解析によりその効果を実証する。
そこで我々は,教師・学生の枠組みにおいて,障害のあるランキングを正すためのランキングアウェア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:24:43Z) - Cross-Shaped Windows Transformer with Self-supervised Pretraining for Clinically Significant Prostate Cancer Detection in Bi-parametric MRI [6.930082824262643]
前立腺癌 (bpMRI) における臨床的に重要な前立腺癌 (csPCa) を検出するために, CSwin 変圧器 UNet モデル (CSwin 変圧器 UNet モデル) を導入した。
1500人の患者を対象とした大規模前立腺bpMRIデータセットを用いて、まずマルチタスク自己教師型学習を用いてCSwin変換器を事前訓練し、データ効率とネットワークの一般化性を向上させる。
5倍のクロスバリデーションは、自己教師型CSwin UNetが0.888 AUCと0.545 Average Precision(AP)を達成し、4つの同等モデル(Swin U)を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-04-30T04:40:32Z) - Tissue Classification During Needle Insertion Using Self-Supervised
Contrastive Learning and Optical Coherence Tomography [53.38589633687604]
針先端で取得した複雑なCT信号の位相および強度データから組織を分類するディープニューラルネットワークを提案する。
トレーニングセットの10%で、提案した事前学習戦略により、モデルが0.84のF1スコアを達成するのに対して、モデルが0.60のF1スコアを得るのに対して、モデルが0.84のF1スコアを得るのに役立ちます。
論文 参考訳(メタデータ) (2023-04-26T14:11:04Z) - An Ensemble Method to Automatically Grade Diabetic Retinopathy with
Optical Coherence Tomography Angiography Images [4.640835690336653]
糖尿病網膜症解析チャレンジ(DRAC)2022から得られる糖尿病網膜症(DR)画像を自動的に評価するアンサンブル法を提案する。
まず、最先端の分類ネットワークを採用し、利用可能なデータセットの異なる分割でUW-OCTA画像のグレードをトレーニングする。
最終的に、25のモデルを取得し、そのうち上位16のモデルを選択し、アンサンブルして最終的な予測を生成する。
論文 参考訳(メタデータ) (2022-12-12T22:06:47Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Self-supervised contrastive learning of echocardiogram videos enables
label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。
左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文 参考訳(メタデータ) (2022-07-23T19:17:26Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。