論文の概要: PVTAdpNet: Polyp Segmentation using Pyramid vision transformer with a novel Adapter block
- arxiv url: http://arxiv.org/abs/2509.23751v1
- Date: Sun, 28 Sep 2025 08:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.422209
- Title: PVTAdpNet: Polyp Segmentation using Pyramid vision transformer with a novel Adapter block
- Title(参考訳): PVTAdpNet:新しいアダプタブロックを持つピラミッド型ビジョントランスを用いたポリプセグメンテーション
- Authors: Arshia Yousefi Nezhad, Helia Aghaei, Hedieh Sajedi,
- Abstract要約: PVTAdpNet(Pyramid Vision Transformer Adapter Residual Network)を導入する。
このモデルは、U-Netスタイルのエンコーダ・デコーダ構造と、ピラミッドビジョントランスフォーマーのバックボーン、新しい残留ブロック、アダプタベースのスキップ接続を統合している。
PVTAdpNetはリアルタイムで正確なポリプセグメンテーションを実現し、ベンチマークデータセット上での優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 2.574393697080417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Colorectal cancer ranks among the most common and deadly cancers, emphasizing the need for effective early detection and treatment. To address the limitations of traditional colonoscopy, including high miss rates due to polyp variability, we introduce the Pyramid Vision Transformer Adapter Residual Network (PVTAdpNet). This model integrates a U-Net-style encoder-decoder structure with a Pyramid Vision Transformer backbone, novel residual blocks, and adapter-based skip connections. The design enhances feature extraction, dense prediction, and gradient flow, supported by squeeze-and-excitation attention for improved channel-wise feature refinement. PVTAdpNet achieves real-time, accurate polyp segmentation, demonstrating superior performance on benchmark datasets with high mDice and mIoU scores, making it highly suitable for clinical applications. PVTAdpNet obtains a high Dice coefficient of 0.8851 and a mean Intersection over Union (mIoU) of 0.8167 on out-of-distribution polyp datasets. Evaluation of the PolypGen dataset demonstrates PVTAdpNet's capability for real-time, accurate performance within familiar distributions. The source code of our network is available at https://github.com/ayousefinejad/PVTAdpNet.git
- Abstract(参考訳): 大腸癌は最も一般的で致命的ながんの1つであり、効果的な早期発見と治療の必要性を強調している。
ポリープ変動によるミス率の増大など,従来の大腸内視鏡の限界に対処するため,Praamid Vision Transformer Adapter Residual Network(PVTAdpNet)を導入する。
このモデルは、U-Netスタイルのエンコーダ・デコーダ構造と、ピラミッドビジョントランスフォーマーのバックボーン、新しい残留ブロック、アダプタベースのスキップ接続を統合している。
この設計により、特徴抽出、密度予測、勾配流が強化され、シャープ・アンド・エキサイティング・アテンションがサポートされ、チャンネルワイド・フィーチャー・リファインメントが改善された。
PVTAdpNetは、リアルタイムで正確なポリプセグメンテーションを実現し、mDiceとmIoUスコアの高いベンチマークデータセットで優れたパフォーマンスを示し、臨床応用に非常に適している。
PVTAdpNetは、分布外のポリプデータセット上で、高いDice係数が0.8851、平均のIntersection over Union (mIoU)が0.8167を得る。
PolypGenデータセットの評価は、PVTAdpNetの、よく知られたディストリビューション内でのリアルタイムで正確なパフォーマンスを示す。
私たちのネットワークのソースコードはhttps://github.com/ayousefinejad/PVTAdpNet.gitで公開されています。
関連論文リスト
- RTA-Former: Reverse Transformer Attention for Polyp Segmentation [1.383118997843137]
本稿では,エンコーダのバックボーンとしてトランスフォーマーモデルを応用し,デコーダの逆アテンション(RA)をデコーダのトランスフォーマーステージに適応させ,エッジセグメンテーションを強化する新しいネットワークRTA-Formerを提案する。
実験の結果、RTA-Formerは5つのpolypセグメンテーションデータセットで最先端(SOTA)のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-01-22T03:09:00Z) - TransRUPNet for Improved Polyp Segmentation [1.2498887792836635]
本研究では,トランスフォーマーをベースとしたResidual Upsampling Network (TransRUPNet) を開発した。
画像サイズが256times256$の場合、提案手法は、毎秒47.07フレームの優れたリアルタイム動作速度を実現する。
論文 参考訳(メタデータ) (2023-06-03T19:06:06Z) - TransNetR: Transformer-based Residual Network for Polyp Segmentation
with Multi-Center Out-of-Distribution Testing [2.3293678240472517]
大腸ポリープ分割のためのトランスフォーマーを用いたResidual Network(TransNetR)を提案する。
TransNetRは、トレーニング済みのResNet50をエンコーダとして、3つのデコーダブロックと、ネットワークの終端にあるアップサンプリング層で構成されるエンコーダ・デコーダネットワークである。
高いダイス係数は0.8706、平均インターセクションは0.8016であり、Kvasir-SEGデータセット上でのリアルタイム処理速度は54.60である。
論文 参考訳(メタデータ) (2023-03-13T19:11:17Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - LAPFormer: A Light and Accurate Polyp Segmentation Transformer [6.352264764099531]
我々は,階層型トランスフォーマーエンコーダを用いてグローバルな特徴を抽出する,LAPFormerというエンコーダデコーダアーキテクチャを用いた新しいモデルを提案する。
提案するデコーダは,高スケールおよび低スケールから特徴を融合するプログレッシブ・フィーチャー・フュージョン・モジュールを含む。
ポリープセグメンテーションのための5つの人気のあるベンチマークデータセット上で、我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-10-10T01:52:30Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。