論文の概要: Hard-Attention Gates with Gradient Routing for Endoscopic Image Computing
- arxiv url: http://arxiv.org/abs/2407.04400v1
- Date: Fri, 5 Jul 2024 10:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:50:07.551136
- Title: Hard-Attention Gates with Gradient Routing for Endoscopic Image Computing
- Title(参考訳): グラディエントルーティングを用いた内視鏡画像処理のためのハードアテンションゲート
- Authors: Giorgio Roffo, Carlo Biffi, Pietro Salvagnini, Andrea Cherubini,
- Abstract要約: 本稿では,動的特徴選択のためのFeatureSelection Gates (FSG) やHard-Attention Gates (HAG) を紹介する。
この技術は、スパース接続を促進することにより、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を強化することを目的としている。
本稿では,HAGを拡張したネットワークが,ポリプサイズに関連する二分分類タスクと三分分類タスクの両方において,性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 3.146247125118741
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To address overfitting and enhance model generalization in gastroenterological polyp size assessment, our study introduces Feature-Selection Gates (FSG) or Hard-Attention Gates (HAG) alongside Gradient Routing (GR) for dynamic feature selection. This technique aims to boost Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) by promoting sparse connectivity, thereby reducing overfitting and enhancing generalization. HAG achieves this through sparsification with learnable weights, serving as a regularization strategy. GR further refines this process by optimizing HAG parameters via dual forward passes, independently from the main model, to improve feature re-weighting. Our evaluation spanned multiple datasets, including CIFAR-100 for a broad impact assessment and specialized endoscopic datasets (REAL-Colon, Misawa, and SUN) focusing on polyp size estimation, covering over 200 polyps in more than 370,000 frames. The findings indicate that our HAG-enhanced networks substantially enhance performance in both binary and triclass classification tasks related to polyp sizing. Specifically, CNNs experienced an F1 Score improvement to 87.8% in binary classification, while in triclass classification, the ViT-T model reached an F1 Score of 76.5%, outperforming traditional CNNs and ViT-T models. To facilitate further research, we are releasing our codebase, which includes implementations for CNNs, multistream CNNs, ViT, and HAG-augmented variants. This resource aims to standardize the use of endoscopic datasets, providing public training-validation-testing splits for reliable and comparable research in gastroenterological polyp size estimation. The codebase is available at github.com/cosmoimd/feature-selection-gates.
- Abstract(参考訳): 胃腸科ポリプサイズ評価におけるモデル一般化の過度な適合と向上のために,動的特徴選択のためのグラディエント・ルーティング(GR)と並行して,FSG (Feature-Selection Gates) またはHAG (Hard-Attention Gates) を導入する。
この技術は、スパース接続を促進することにより、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を強化し、オーバーフィットを低減し、一般化を促進することを目的としている。
HAGは、学習可能なウェイトでスパース化することでこれを達成し、正規化戦略として機能する。
GRは、メインモデルから独立してデュアルフォワードパスを介してHAGパラメータを最適化し、機能の再重み付けを改善することで、このプロセスをさらに洗練する。
CIFAR-100を対象とし,370,000フレーム以上で200個以上のポリープをカバーし,ポリプサイズ推定に重点を置く内視鏡的データセット(REAL-Colon, Misawa, SUN)について検討した。
以上の結果から,HAGにより強化されたネットワークは,ポリプサイズに関連する二分分類タスクと三分分類タスクの両方において,性能を著しく向上させることが示唆された。
具体的には、CNNはF1スコアを87.8%に改善し、3クラス分類ではVT-Tモデルが76.5%に達し、従来のCNNやVT-Tモデルを上回った。
さらなる研究を容易にするため、CNN、マルチストリームCNN、ViT、HAG拡張型の実装を含むコードベースをリリースしています。
このリソースは、内視鏡的データセットの使用を標準化することを目的としており、胃腸科ポリプサイズ推定における信頼性と同等の研究のために、公開トレーニングバリデーションテストスプリットを提供する。
コードベースはgithub.com/cosmoimd/feature-selection-gatesで入手できる。
関連論文リスト
- Segmentation of Non-Small Cell Lung Carcinomas: Introducing DRU-Net and Multi-Lens Distortion [0.1935997508026988]
我々は,ヒト非小細胞肺癌の悪性度を規定するセグメンテーションモデル(DRU-Net)を提案している。
我々は提案したモデルを作成するために2つのデータセット(ノルウェーの肺がんバイオバンクとHaukeland大学肺がんコホート)を使用した。
提案した空間拡張法(マルチレンズ歪み)により,ネットワーク性能は3%向上した。
論文 参考訳(メタデータ) (2024-06-20T13:14:00Z) - Leveraging Spatial and Semantic Feature Extraction for Skin Cancer Diagnosis with Capsule Networks and Graph Neural Networks [0.0]
本研究では,グラフニューラルネットワーク(GNN)とCapsule Networksを統合して,分類性能を向上させるという,革新的なアプローチを提案する。
本稿では,Tiny Pyramid Vision GNN(Tiny Pyramid ViG)アーキテクチャをCapsule Networkに組み込んで評価・拡張することに焦点を当てた。
75回のトレーニングの後、我々のモデルは89.23%と95.52%に達し、既存のベンチマークを上回った。
論文 参考訳(メタデータ) (2024-03-18T17:47:39Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - Efficient Heterogeneous Graph Learning via Random Projection [65.65132884606072]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - Benchmarking Deep Learning Frameworks for Automated Diagnosis of Ocular
Toxoplasmosis: A Comprehensive Approach to Classification and Segmentation [1.3701366534590498]
眼トキソプラズマ症(Ocular Toxoplasmosis,OT)は、眼疾患を引き起こすT. gondiiによって引き起こされる一般的な眼感染症である。
本研究は、DL技術を活用し、安価で自動化され、使いやすく、正確な診断方法を開発しようとしている将来の研究者のためのガイドを提供する。
論文 参考訳(メタデータ) (2023-05-18T13:42:15Z) - TransNetR: Transformer-based Residual Network for Polyp Segmentation
with Multi-Center Out-of-Distribution Testing [2.3293678240472517]
大腸ポリープ分割のためのトランスフォーマーを用いたResidual Network(TransNetR)を提案する。
TransNetRは、トレーニング済みのResNet50をエンコーダとして、3つのデコーダブロックと、ネットワークの終端にあるアップサンプリング層で構成されるエンコーダ・デコーダネットワークである。
高いダイス係数は0.8706、平均インターセクションは0.8016であり、Kvasir-SEGデータセット上でのリアルタイム処理速度は54.60である。
論文 参考訳(メタデータ) (2023-03-13T19:11:17Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。