Fugu-MT 論文翻訳(概要): CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection

論文の概要: CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection

arxiv url: http://arxiv.org/abs/2404.15451v1
Date: Tue, 23 Apr 2024 18:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-25 15:23:04.518567
Title: CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection
Title（参考訳）: CFPFormer: セグメンテーションと検出のためのトランスフォーマーデコーダのような特徴ピラミド
Authors: Hongyi Cai, Mohammad Mahdinur Rahman, Jingyu Wu, Yulun Deng,
Abstract要約: 特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
参考スコア（独自算出の注目度）: 1.837431956557716
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Feature pyramids have been widely adopted in convolutional neural networks (CNNs) and transformers for tasks like medical image segmentation and object detection. However, the currently existing models generally focus on the Encoder-side Transformer to extract features, from which decoder improvement can bring further potential with well-designed architecture. We propose CFPFormer, a novel decoder block that integrates feature pyramids and transformers. Specifically, by leveraging patch embedding, cross-layer feature concatenation, and Gaussian attention mechanisms, CFPFormer enhances feature extraction capabilities while promoting generalization across diverse tasks. Benefiting from Transformer structure and U-shaped Connections, our introduced model gains the ability to capture long-range dependencies and effectively up-sample feature maps. Our model achieves superior performance in detecting small objects compared to existing methods. We evaluate CFPFormer on medical image segmentation datasets and object detection benchmarks (VOC 2007, VOC2012, MS-COCO), demonstrating its effectiveness and versatility. On the ACDC Post-2017-MICCAI-Challenge online test set, our model reaches exceptionally impressive accuracy, and performed well compared with the original decoder setting in Synapse multi-organ segmentation dataset.
Abstract（参考訳）: 特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。しかし、現在のモデルでは一般的にエンコーダ側のトランスフォーマーに焦点をあてて特徴を抽出し、そこからデコーダの改善により、よく設計されたアーキテクチャでさらなる可能性をもたらすことができる。本稿では,特徴ピラミッドと変圧器を統合した新しいデコーダブロックCFPFormerを提案する。具体的には、パッチ埋め込み、クロス層機能結合、ガウスアテンション機構を活用することで、CFPFormerは、多様なタスクをまたいだ一般化を促進しながら、特徴抽出機能を強化する。トランスフォーマー構造とU字型接続の利点を生かして、我々の導入したモデルは、長距離依存を捕捉し、効果的にアップサンプルな特徴マップを得ることができる。本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。医用画像セグメンテーションデータセットとオブジェクト検出ベンチマーク(VOC 2007、VOC2012、MS-COCO)でCFPFormerを評価し、その有効性と汎用性を実証した。 ACDC Post-2017-MICCAI-Challengeオンラインテストセットでは,このモデルは非常に精度が高く,Synapseマルチ組織セグメンテーションデータセットのデコーダ設定とよく比較できる。

関連論文リスト

AFFSegNet: Adaptive Feature Fusion Segmentation Network for Microtumors and Multi-Organ Segmentation [32.74195208408193]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文参考訳（メタデータ） (2024-09-12T06:25:44Z)
Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文参考訳（メタデータ） (2024-04-28T14:37:10Z)
ParaTransCNN: Parallelized TransCNN Encoder for Medical Image Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。特に小臓器では, セグメンテーションの精度が向上した。
論文参考訳（メタデータ） (2024-01-27T05:58:36Z)
RTA-Former: Reverse Transformer Attention for Polyp Segmentation [1.383118997843137]
本稿では,エンコーダのバックボーンとしてトランスフォーマーモデルを応用し,デコーダの逆アテンション(RA)をデコーダのトランスフォーマーステージに適応させ,エッジセグメンテーションを強化する新しいネットワークRTA-Formerを提案する。実験の結果、RTA-Formerは5つのpolypセグメンテーションデータセットで最先端(SOTA)のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-01-22T03:09:00Z)
SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文参考訳（メタデータ） (2023-10-09T17:59:26Z)
Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文参考訳（メタデータ） (2023-03-26T20:50:58Z)
LAPFormer: A Light and Accurate Polyp Segmentation Transformer [6.352264764099531]
我々は,階層型トランスフォーマーエンコーダを用いてグローバルな特徴を抽出する,LAPFormerというエンコーダデコーダアーキテクチャを用いた新しいモデルを提案する。提案するデコーダは,高スケールおよび低スケールから特徴を融合するプログレッシブ・フィーチャー・フュージョン・モジュールを含む。ポリープセグメンテーションのための5つの人気のあるベンチマークデータセット上で、我々のモデルを検証した。
論文参考訳（メタデータ） (2022-10-10T01:52:30Z)
MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。 MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2022-06-02T07:38:53Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。 Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文参考訳（メタデータ） (2022-05-14T13:11:39Z)
Multi-scale and Cross-scale Contrastive Learning for Semantic Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文参考訳（メタデータ） (2022-03-25T01:24:24Z)
Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文参考訳（メタデータ） (2022-03-20T02:59:51Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文参考訳（メタデータ） (2021-05-12T09:30:26Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-03-04T13:34:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。