論文の概要: Ophthalmic Biomarker Detection Using Ensembled Vision Transformers and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2310.14005v2
- Date: Sat, 23 Nov 2024 17:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:14:30.613607
- Title: Ophthalmic Biomarker Detection Using Ensembled Vision Transformers and Knowledge Distillation
- Title(参考訳): アンサンブルビジョン変換器と知識蒸留を用いた眼科バイオマーカー検出
- Authors: H. A. Z. Sameen Shahgir, Khondker Salman Sayeed, Tanjeem Azwad Zaman, Md. Asif Haider, Sheikh Saifur Rahman Jony, M. Sohel Rahman,
- Abstract要約: 2つの視覚変換器ベースのモデルをトレーニングし、推論時にそれらをアンサンブルする。
MaxViTの畳み込みレイヤの使用に続いて、ローカルな特徴検出にもっと適するように注意を払っています。
EVA-02の正常な注意機構と知識蒸留の利用は、グローバルな特徴を検出するのに適している。
- 参考スコア(独自算出の注目度): 3.1487473474617125
- License:
- Abstract: In this paper, we outline our approach to identify ophthalmic biomarkers from Optical Coherence Tomography (OCT) images presented in the OLIVES dataset, obtained from a diverse range of patients. Using robust augmentations and 5-fold cross-validation, we trained two vision transformer-based models: MaxViT and EVA-02, and ensembled them at inference time. We find MaxViT's use of convolution layers followed by strided attention to be better suited for local feature detection while EVA-02's use of normal attention mechanism and knowledge distillation is better for detecting global features. Our solution brought us the champion title of the IEEE SPS Video and Image Processing (VIP) Cup 2023, achieving a patient-wise F1 score of 0.814 in the first phase and 0.8527 in the second and final phase of the competition, scoring 3.8% higher than the next best solution.
- Abstract(参考訳): 本稿では,オプティカルコヒーレンス・トモグラフィ(OCT)画像から眼生マーカーを同定するためのアプローチについて概説する。
頑健な拡張と5倍のクロスバリデーションを用いて、MaxViTとEVA-02の2つのビジョントランスフォーマーモデルを訓練し、それらを推論時にアンサンブルした。
EVA-02の通常の注意機構と知識蒸留はグローバルな特徴の検出に有効であるのに対し,MaxViTの畳み込み層の利用は局所的特徴検出に適していると考えられる。
我々のソリューションは、IEEE SPS Video and Image Processing (VIP) Cup 2023のチャンピオンタイトルをもたらし、第1フェーズで患者のF1スコアが0.814、第2フェーズと最終フェーズで0.8527を獲得し、次のベストソリューションよりも3.8%高いスコアを得た。
関連論文リスト
- Ophthalmic Biomarker Detection with Parallel Prediction of Transformer and Convolutional Architecture [1.6893691730575022]
本稿では,CNNとVision Transformerのアンサンブルを用いた眼科バイオマーカー検出手法を提案する。
本手法はOCT画像から6つのバイオマーカーを検出するためにOLIVESデータセット上に実装され,データセット上でのマクロ平均F1スコアの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-09-26T12:33:34Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - Domain-specific augmentations with resolution agnostic self-attention mechanism improves choroid segmentation in optical coherence tomography images [3.8485899972356337]
脈絡膜は眼の重要な血管層であり、網膜光受容体に酸素を供給する。
現在、コロイドを測定するには、独立した半自動および深層学習に基づく複数のアルゴリズムを使う必要がある。
我々は、コロイドセグメンテーション(REACH)のためのロバストで解像度に依存しない、効果的な注意に基づくネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T11:35:23Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - COVID-19 detection using ViT transformer-based approach from Computed
Tomography Images [0.0]
我々は,CT画像を用いた新型コロナウイルス診断の精度と効率を高めるための新しいアプローチを提案する。
224x224サイズの入力画像に対して設定されたベースViT変換器を用いて、バイナリ分類タスクに適合するように出力を変更する。
本手法では,患者のCTスライスをCOVID-19または非COVID-19に分類し,系統的な患者レベルの予測戦略を実装した。
論文 参考訳(メタデータ) (2023-10-12T09:37:56Z) - nnUNet RASPP for Retinal OCT Fluid Detection, Segmentation and
Generalisation over Variations of Data Sources [25.095695898777656]
我々は、複数のデバイスベンダーの画像間で一貫した高パフォーマンスを持つnnUNetの2つの変種を提案する。
このアルゴリズムはMICCAI 2017 RETOUCHチャレンジデータセットで検証された。
実験の結果,我々のアルゴリズムは最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-02-25T23:47:23Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - A Global Benchmark of Algorithms for Segmenting Late Gadolinium-Enhanced
Cardiac Magnetic Resonance Imaging [90.29017019187282]
現在世界最大の心臓LGE-MRIデータセットである154個の3D LGE-MRIを用いた「2018 left Atrium Challenge」。
技術および生物学的指標を用いた提案アルゴリズムの解析を行った。
その結果, 最上部法は93.2%, 平均表面は0.7mmであった。
論文 参考訳(メタデータ) (2020-04-26T08:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。