論文の概要: Leveraging Complementary Attention maps in vision transformers for OCT image analysis
- arxiv url: http://arxiv.org/abs/2310.14005v3
- Date: Sat, 31 May 2025 01:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.655753
- Title: Leveraging Complementary Attention maps in vision transformers for OCT image analysis
- Title(参考訳): OCT画像解析のための視覚変換器における補足注意マップの活用
- Authors: Haz Sameen Shahgir, Tanjeem Azwad Zaman, Khondker Salman Sayeed, Md. Asif Haider, Sheikh Saifur Rahman Jony, M. Sohel Rahman,
- Abstract要約: OCTスキャンからバイオマーカーを識別するための最新のパイプラインについて概説する。
バイオマーカー検出のための異なるコンボリューションとアテンション機構を評価した。
IEEE Video and Image Processing Cup 2023のコンペでは、両モデルの予測をまとめて第一位に立った。
- 参考スコア(独自算出の注目度): 3.1487473474617125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Coherence Tomography (OCT) scan yields all possible cross-section images of a retina for detecting biomarkers linked to optical defects. Due to the high volume of data generated, an automated and reliable biomarker detection pipeline is necessary as a primary screening stage. We outline our new state-of-the-art pipeline for identifying biomarkers from OCT scans. In collaboration with trained ophthalmologists, we identify local and global structures in biomarkers. Through a comprehensive and systematic review of existing vision architectures, we evaluate different convolution and attention mechanisms for biomarker detection. We find that MaxViT, a hybrid vision transformer combining convolution layers with strided attention, is better suited for local feature detection, while EVA-02, a standard vision transformer leveraging pure attention and large-scale knowledge distillation, excels at capturing global features. We ensemble the predictions of both models to achieve first place in the IEEE Video and Image Processing Cup 2023 competition on OCT biomarker detection, achieving a patient-wise F1 score of 0.8527 in the final phase of the competition, scoring 3.8\% higher than the next best solution. Finally, we used knowledge distillation to train a single MaxViT to outperform our ensemble at a fraction of the computation cost.
- Abstract(参考訳): 光コヒーレンス・トモグラフィー(OCT)スキャンは、光学欠陥に関連するバイオマーカーを検出するための網膜のすべての断面画像を生成する。
大量のデータを生成するため、自動化され信頼性の高いバイオマーカー検出パイプラインが一次スクリーニング段階として必要である。
OCTスキャンからバイオマーカーを識別するための最新のパイプラインについて概説する。
専門の眼科医と共同でバイオマーカーの局所構造とグローバル構造を同定する。
既存の視覚アーキテクチャの包括的かつ体系的なレビューを通じて、バイオマーカー検出のための異なる畳み込みと注意機構を評価する。
コンボリューション層と頑健な注意を結合したハイブリッド視覚変換器であるMaxViTは、局所的な特徴検出に適しており、また、純粋注意と大規模知識蒸留を利用した標準的な視覚変換器であるEVA-02は、グローバルな特徴の抽出に優れる。
IEEE Video and Image Processing Cup 2023のOCTバイオマーカー検出コンテストにおいて、両モデルの予測をまとめ、最終段階で患者のF1スコア0.8527を獲得し、次のベストソリューションよりも3.8倍高いスコアを得た。
最後に、知識蒸留を用いて1つのMaxViTを訓練し、計算コストのごく一部でアンサンブルを上回りました。
関連論文リスト
- MaxGlaViT: A novel lightweight vision transformer-based approach for early diagnosis of glaucoma stages from fundus images [0.0]
本研究は、早期緑内障検出のための再構成多軸視覚変換器(MaxViT)に基づく軽量モデルであるMaxGlaViTを紹介する。
このモデルは、異なる緑内障の眼底画像を含むHDV1データセットを用いて評価した。
MaxGlaViTは92.03%の精度、92.33%の精度、92.03%のリコール、92.13%のf1スコア、87.12%のコーエンのカッパスコアを達成した。
論文 参考訳(メタデータ) (2025-02-24T13:48:04Z) - Multi-Class Abnormality Classification Task in Video Capsule Endoscopy [3.656114607436271]
本研究は,ビデオカプセル内視鏡(VCE)における多クラス異常分類の課題に対処するものである。
本研究の目的は,さまざまな消化管疾患を正しく分類することであり,臨床現場での診断効率の向上に重要である。
チームカプセルコマンドは,平均AUCが0.7314,精度が0.3235で7位にランクインした。
論文 参考訳(メタデータ) (2024-10-25T21:22:52Z) - Ophthalmic Biomarker Detection with Parallel Prediction of Transformer and Convolutional Architecture [1.6893691730575022]
本稿では,CNNとVision Transformerのアンサンブルを用いた眼科バイオマーカー検出手法を提案する。
本手法はOCT画像から6つのバイオマーカーを検出するためにOLIVESデータセット上に実装され,データセット上でのマクロ平均F1スコアの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-09-26T12:33:34Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - Domain-specific augmentations with resolution agnostic self-attention mechanism improves choroid segmentation in optical coherence tomography images [3.8485899972356337]
脈絡膜は眼の重要な血管層であり、網膜光受容体に酸素を供給する。
現在、コロイドを測定するには、独立した半自動および深層学習に基づく複数のアルゴリズムを使う必要がある。
我々は、コロイドセグメンテーション(REACH)のためのロバストで解像度に依存しない、効果的な注意に基づくネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T11:35:23Z) - Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge [44.76736949127792]
我々はBraTS 2023の頭蓋内髄膜腫チャレンジの設計と結果について述べる。
BraTS髄膜腫チャレンジ(BraTS Meningioma Challenge)は、髄膜腫に焦点を当てた以前のBraTSグリオーマチャレンジとは異なる。
上層部は腫瘍,腫瘍コア,腫瘍全体の拡張のために0.976,0.976,0.964の病変中央値類似係数(DSC)を有していた。
論文 参考訳(メタデータ) (2024-05-16T03:23:57Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - COVID-19 detection using ViT transformer-based approach from Computed
Tomography Images [0.0]
我々は,CT画像を用いた新型コロナウイルス診断の精度と効率を高めるための新しいアプローチを提案する。
224x224サイズの入力画像に対して設定されたベースViT変換器を用いて、バイナリ分類タスクに適合するように出力を変更する。
本手法では,患者のCTスライスをCOVID-19または非COVID-19に分類し,系統的な患者レベルの予測戦略を実装した。
論文 参考訳(メタデータ) (2023-10-12T09:37:56Z) - nnUNet RASPP for Retinal OCT Fluid Detection, Segmentation and
Generalisation over Variations of Data Sources [25.095695898777656]
我々は、複数のデバイスベンダーの画像間で一貫した高パフォーマンスを持つnnUNetの2つの変種を提案する。
このアルゴリズムはMICCAI 2017 RETOUCHチャレンジデータセットで検証された。
実験の結果,我々のアルゴリズムは最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-02-25T23:47:23Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - A Global Benchmark of Algorithms for Segmenting Late Gadolinium-Enhanced
Cardiac Magnetic Resonance Imaging [90.29017019187282]
現在世界最大の心臓LGE-MRIデータセットである154個の3D LGE-MRIを用いた「2018 left Atrium Challenge」。
技術および生物学的指標を用いた提案アルゴリズムの解析を行った。
その結果, 最上部法は93.2%, 平均表面は0.7mmであった。
論文 参考訳(メタデータ) (2020-04-26T08:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。