論文の概要: Leveraging Complementary Attention maps in vision transformers for OCT image analysis
- arxiv url: http://arxiv.org/abs/2310.14005v3
- Date: Sat, 31 May 2025 01:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.655753
- Title: Leveraging Complementary Attention maps in vision transformers for OCT image analysis
- Title(参考訳): OCT画像解析のための視覚変換器における補足注意マップの活用
- Authors: Haz Sameen Shahgir, Tanjeem Azwad Zaman, Khondker Salman Sayeed, Md. Asif Haider, Sheikh Saifur Rahman Jony, M. Sohel Rahman,
- Abstract要約: OCTスキャンからバイオマーカーを識別するための最新のパイプラインについて概説する。
バイオマーカー検出のための異なるコンボリューションとアテンション機構を評価した。
IEEE Video and Image Processing Cup 2023のコンペでは、両モデルの予測をまとめて第一位に立った。
- 参考スコア(独自算出の注目度): 3.1487473474617125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Coherence Tomography (OCT) scan yields all possible cross-section images of a retina for detecting biomarkers linked to optical defects. Due to the high volume of data generated, an automated and reliable biomarker detection pipeline is necessary as a primary screening stage. We outline our new state-of-the-art pipeline for identifying biomarkers from OCT scans. In collaboration with trained ophthalmologists, we identify local and global structures in biomarkers. Through a comprehensive and systematic review of existing vision architectures, we evaluate different convolution and attention mechanisms for biomarker detection. We find that MaxViT, a hybrid vision transformer combining convolution layers with strided attention, is better suited for local feature detection, while EVA-02, a standard vision transformer leveraging pure attention and large-scale knowledge distillation, excels at capturing global features. We ensemble the predictions of both models to achieve first place in the IEEE Video and Image Processing Cup 2023 competition on OCT biomarker detection, achieving a patient-wise F1 score of 0.8527 in the final phase of the competition, scoring 3.8\% higher than the next best solution. Finally, we used knowledge distillation to train a single MaxViT to outperform our ensemble at a fraction of the computation cost.
- Abstract(参考訳): 光コヒーレンス・トモグラフィー(OCT)スキャンは、光学欠陥に関連するバイオマーカーを検出するための網膜のすべての断面画像を生成する。
大量のデータを生成するため、自動化され信頼性の高いバイオマーカー検出パイプラインが一次スクリーニング段階として必要である。
OCTスキャンからバイオマーカーを識別するための最新のパイプラインについて概説する。
専門の眼科医と共同でバイオマーカーの局所構造とグローバル構造を同定する。
既存の視覚アーキテクチャの包括的かつ体系的なレビューを通じて、バイオマーカー検出のための異なる畳み込みと注意機構を評価する。
コンボリューション層と頑健な注意を結合したハイブリッド視覚変換器であるMaxViTは、局所的な特徴検出に適しており、また、純粋注意と大規模知識蒸留を利用した標準的な視覚変換器であるEVA-02は、グローバルな特徴の抽出に優れる。
IEEE Video and Image Processing Cup 2023のOCTバイオマーカー検出コンテストにおいて、両モデルの予測をまとめ、最終段階で患者のF1スコア0.8527を獲得し、次のベストソリューションよりも3.8倍高いスコアを得た。
最後に、知識蒸留を用いて1つのMaxViTを訓練し、計算コストのごく一部でアンサンブルを上回りました。
関連論文リスト
- Alzheimer's Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models [2.474908349649168]
本研究は、高度深層学習技術を用いて、アルツハイマー病(AD)および健康管理(CO)患者の網膜OCT画像の分類を行う。
最高の分類アーキテクチャはTransNet OCTであり、入力されたOCT画像の平均精度は98.18%、セグメント化されたOCT画像では98.91%であり、5倍のクロスバリデーションである。
論文 参考訳(メタデータ) (2025-03-14T15:34:37Z) - MaxGlaViT: A novel lightweight vision transformer-based approach for early diagnosis of glaucoma stages from fundus images [0.0]
本研究は、早期緑内障検出のための再構成多軸視覚変換器(MaxViT)に基づく軽量モデルであるMaxGlaViTを紹介する。
このモデルは、異なる緑内障の眼底画像を含むHDV1データセットを用いて評価した。
MaxGlaViTは92.03%の精度、92.33%の精度、92.03%のリコール、92.13%のf1スコア、87.12%のコーエンのカッパスコアを達成した。
論文 参考訳(メタデータ) (2025-02-24T13:48:04Z) - Multi-Class Abnormality Classification Task in Video Capsule Endoscopy [3.656114607436271]
本研究は,ビデオカプセル内視鏡(VCE)における多クラス異常分類の課題に対処するものである。
本研究の目的は,さまざまな消化管疾患を正しく分類することであり,臨床現場での診断効率の向上に重要である。
チームカプセルコマンドは,平均AUCが0.7314,精度が0.3235で7位にランクインした。
論文 参考訳(メタデータ) (2024-10-25T21:22:52Z) - Ophthalmic Biomarker Detection with Parallel Prediction of Transformer and Convolutional Architecture [1.6893691730575022]
本稿では,CNNとVision Transformerのアンサンブルを用いた眼科バイオマーカー検出手法を提案する。
本手法はOCT画像から6つのバイオマーカーを検出するためにOLIVESデータセット上に実装され,データセット上でのマクロ平均F1スコアの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-09-26T12:33:34Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - Domain-specific augmentations with resolution agnostic self-attention mechanism improves choroid segmentation in optical coherence tomography images [3.8485899972356337]
脈絡膜は眼の重要な血管層であり、網膜光受容体に酸素を供給する。
現在、コロイドを測定するには、独立した半自動および深層学習に基づく複数のアルゴリズムを使う必要がある。
我々は、コロイドセグメンテーション(REACH)のためのロバストで解像度に依存しない、効果的な注意に基づくネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T11:35:23Z) - Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge [44.76736949127792]
我々はBraTS 2023の頭蓋内髄膜腫チャレンジの設計と結果について述べる。
BraTS髄膜腫チャレンジ(BraTS Meningioma Challenge)は、髄膜腫に焦点を当てた以前のBraTSグリオーマチャレンジとは異なる。
上層部は腫瘍,腫瘍コア,腫瘍全体の拡張のために0.976,0.976,0.964の病変中央値類似係数(DSC)を有していた。
論文 参考訳(メタデータ) (2024-05-16T03:23:57Z) - Deep Learning for Vascular Segmentation and Applications in Phase
Contrast Tomography Imaging [33.23991248643144]
本稿では,多様な臓器にまたがる機械学習技術の現状を概説する。
我々のゴールは、このトピックの基礎を提供し、新しい画像モダリティで血管セグメンテーションに適用するための堅牢なベースラインモデルを特定することである。
HiP CTは、1ボクセルあたり20mmという前例のない解像度で、完全な臓器の3Dイメージングを可能にする。
論文 参考訳(メタデータ) (2023-11-22T11:15:38Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - COVID-19 detection using ViT transformer-based approach from Computed
Tomography Images [0.0]
我々は,CT画像を用いた新型コロナウイルス診断の精度と効率を高めるための新しいアプローチを提案する。
224x224サイズの入力画像に対して設定されたベースViT変換器を用いて、バイナリ分類タスクに適合するように出力を変更する。
本手法では,患者のCTスライスをCOVID-19または非COVID-19に分類し,系統的な患者レベルの予測戦略を実装した。
論文 参考訳(メタデータ) (2023-10-12T09:37:56Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - A Novel Vision Transformer with Residual in Self-attention for
Biomedical Image Classification [8.92307560991779]
本稿では、視覚変換器(ViT)のためのマルチヘッド自己注意の新しい枠組みについて述べる。
提案手法は,マルチヘッドアテンションの各ブロックにおける最高のアテンション出力を蓄積するために,残差接続の概念を用いる。
その結果、従来のViTや他の畳み込みに基づく最先端の分類モデルよりも顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-06-02T15:06:14Z) - nnUNet RASPP for Retinal OCT Fluid Detection, Segmentation and
Generalisation over Variations of Data Sources [25.095695898777656]
我々は、複数のデバイスベンダーの画像間で一貫した高パフォーマンスを持つnnUNetの2つの変種を提案する。
このアルゴリズムはMICCAI 2017 RETOUCHチャレンジデータセットで検証された。
実験の結果,我々のアルゴリズムは最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-02-25T23:47:23Z) - Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images [55.83984261827332]
本稿では,信頼性の高いマルチスケールウェーブレットエンハンストランスネットワークを提案する。
本研究では,ウェーブレット型特徴抽出器ネットワークとマルチスケール変圧器モジュールを統合したセグメンテーションバックボーンを開発した。
提案手法は,他の最先端セグメンテーション手法と比較して信頼性の高いセグメンテーション精度を実現する。
論文 参考訳(メタデータ) (2022-12-01T07:32:56Z) - Affinity Feature Strengthening for Accurate, Complete and Robust Vessel
Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。
コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文 参考訳(メタデータ) (2022-11-12T05:39:17Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Lymphocyte Classification in Hyperspectral Images of Ovarian Cancer
Tissue Biopsy Samples [94.37521840642141]
生検コアのハイパースペクトル画像に白血球画素を分割する機械学習パイプラインを提案する。
これらの細胞は臨床的に診断に重要であるが、いくつかの先行研究は正確なピクセルラベルを得るのが困難であるため、それらを組み込むのに苦労している。
論文 参考訳(メタデータ) (2022-03-23T00:58:27Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Lung Nodule Classification Using Biomarkers, Volumetric Radiomics and 3D
CNNs [0.0699049312989311]
放射線医のアノテーションとCTスキャンの画像分類を併用して肺悪性度を推定するハイブリッドアルゴリズムを提案する。
提案アルゴリズムは3次元畳み込みニューラルネットワーク(CNN)とランダムフォレストを用いて,CT画像とバイオマーカーのアノテーションと放射能の特徴を組み合わせる。
画像バイオマーカーのみを用いたモデルは,バイオマーカーをボリュームラジオミクス,3D CNN,セミ教師付き学習と組み合わせたモデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-10-19T18:57:26Z) - A Global Benchmark of Algorithms for Segmenting Late Gadolinium-Enhanced
Cardiac Magnetic Resonance Imaging [90.29017019187282]
現在世界最大の心臓LGE-MRIデータセットである154個の3D LGE-MRIを用いた「2018 left Atrium Challenge」。
技術および生物学的指標を用いた提案アルゴリズムの解析を行った。
その結果, 最上部法は93.2%, 平均表面は0.7mmであった。
論文 参考訳(メタデータ) (2020-04-26T08:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。