論文の概要: CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection
- arxiv url: http://arxiv.org/abs/2404.15451v1
- Date: Tue, 23 Apr 2024 18:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:23:04.518567
- Title: CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection
- Title(参考訳): CFPFormer: セグメンテーションと検出のためのトランスフォーマーデコーダのような特徴ピラミド
- Authors: Hongyi Cai, Mohammad Mahdinur Rahman, Jingyu Wu, Yulun Deng,
- Abstract要約: 特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
- 参考スコア(独自算出の注目度): 1.837431956557716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Feature pyramids have been widely adopted in convolutional neural networks (CNNs) and transformers for tasks like medical image segmentation and object detection. However, the currently existing models generally focus on the Encoder-side Transformer to extract features, from which decoder improvement can bring further potential with well-designed architecture. We propose CFPFormer, a novel decoder block that integrates feature pyramids and transformers. Specifically, by leveraging patch embedding, cross-layer feature concatenation, and Gaussian attention mechanisms, CFPFormer enhances feature extraction capabilities while promoting generalization across diverse tasks. Benefiting from Transformer structure and U-shaped Connections, our introduced model gains the ability to capture long-range dependencies and effectively up-sample feature maps. Our model achieves superior performance in detecting small objects compared to existing methods. We evaluate CFPFormer on medical image segmentation datasets and object detection benchmarks (VOC 2007, VOC2012, MS-COCO), demonstrating its effectiveness and versatility. On the ACDC Post-2017-MICCAI-Challenge online test set, our model reaches exceptionally impressive accuracy, and performed well compared with the original decoder setting in Synapse multi-organ segmentation dataset.
- Abstract(参考訳): 特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
しかし、現在のモデルでは一般的にエンコーダ側のトランスフォーマーに焦点をあてて特徴を抽出し、そこからデコーダの改善により、よく設計されたアーキテクチャでさらなる可能性をもたらすことができる。
本稿では,特徴ピラミッドと変圧器を統合した新しいデコーダブロックCFPFormerを提案する。
具体的には、パッチ埋め込み、クロス層機能結合、ガウスアテンション機構を活用することで、CFPFormerは、多様なタスクをまたいだ一般化を促進しながら、特徴抽出機能を強化する。
トランスフォーマー構造とU字型接続の利点を生かして、我々の導入したモデルは、長距離依存を捕捉し、効果的にアップサンプルな特徴マップを得ることができる。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
医用画像セグメンテーションデータセットとオブジェクト検出ベンチマーク(VOC 2007、VOC2012、MS-COCO)でCFPFormerを評価し、その有効性と汎用性を実証した。
ACDC Post-2017-MICCAI-Challengeオンラインテストセットでは,このモデルは非常に精度が高く,Synapseマルチ組織セグメンテーションデータセットのデコーダ設定とよく比較できる。
関連論文リスト
- AFFSegNet: Adaptive Feature Fusion Segmentation Network for Microtumors and Multi-Organ Segmentation [32.74195208408193]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。
本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。
多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-12T06:25:44Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。
マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - LAPFormer: A Light and Accurate Polyp Segmentation Transformer [6.352264764099531]
我々は,階層型トランスフォーマーエンコーダを用いてグローバルな特徴を抽出する,LAPFormerというエンコーダデコーダアーキテクチャを用いた新しいモデルを提案する。
提案するデコーダは,高スケールおよび低スケールから特徴を融合するプログレッシブ・フィーチャー・フュージョン・モジュールを含む。
ポリープセグメンテーションのための5つの人気のあるベンチマークデータセット上で、我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-10-10T01:52:30Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。