論文の概要: Cooperation Learning Enhanced Colonic Polyp Segmentation Based on
Transformer-CNN Fusion
- arxiv url: http://arxiv.org/abs/2301.06892v1
- Date: Tue, 17 Jan 2023 13:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:01:41.549294
- Title: Cooperation Learning Enhanced Colonic Polyp Segmentation Based on
Transformer-CNN Fusion
- Title(参考訳): Transformer-CNN Fusion を用いたコロニーポリプセグメンテーションの協調学習
- Authors: Yuanyuan Wang, Zhaohong Deng, Qiongdan Lou, Shudong Hu, Kup-sze Choi,
Shitong Wang
- Abstract要約: 本研究ではFusion-Transformer-HardNetMSEG(Fu-TransHNet)と呼ばれるハイブリッドネットワークを提案する。
Fu-TransHNetは、異なるメカニズムの深層学習を用いて互いに融合し、多視点協調学習技術で強化されている。
実験の結果,Fu-TransHNetネットワークは5つの広く使用されているベンチマークデータセットの既存の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 21.6402447417878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional segmentation methods for colonic polyps are mainly designed based
on low-level features. They could not accurately extract the location of small
colonic polyps. Although the existing deep learning methods can improve the
segmentation accuracy, their effects are still unsatisfied. To meet the above
challenges, we propose a hybrid network called Fusion-Transformer-HardNetMSEG
(i.e., Fu-TransHNet) in this study. Fu-TransHNet uses deep learning of
different mechanisms to fuse each other and is enhanced with multi-view
collaborative learning techniques. Firstly, the Fu-TransHNet utilizes the
Transformer branch and the CNN branch to realize the global feature learning
and local feature learning, respectively. Secondly, a fusion module is designed
to integrate the features from two branches. The fusion module consists of two
parts: 1) the Global-Local Feature Fusion (GLFF) part and 2) the Dense Fusion
of Multi-scale features (DFM) part. The former is built to compensate the
feature information mission from two branches at the same scale; the latter is
constructed to enhance the feature representation. Thirdly, the above two
branches and fusion modules utilize multi-view cooperative learning techniques
to obtain their respective weights that denote their importance and then make a
final decision comprehensively. Experimental results showed that the
Fu-TransHNet network was superior to the existing methods on five widely used
benchmark datasets. In particular, on the ETIS-LaribPolypDB dataset containing
many small-target colonic polyps, the mDice obtained by Fu-TransHNet were 12.4%
and 6.2% higher than the state-of-the-art methods HardNet-MSEG and TransFuse-s,
respectively.
- Abstract(参考訳): 従来の大腸ポリープのセグメンテーション法は主に低レベルの特徴に基づいて設計されている。
彼らは小さな大腸ポリープの位置を正確に抽出できなかった。
既存のディープラーニング手法はセグメンテーション精度を向上させることができるが、その効果はまだ不十分である。
そこで本研究では,Fusion-Transformer-HardNetMSEG(Fu-TransHNet)と呼ばれるハイブリッドネットワークを提案する。
Fu-TransHNetは、異なるメカニズムの深層学習を用いて互いに融合し、多視点協調学習技術で強化されている。
まず、Fu-TransHNetはTransformerブランチとCNNブランチを使用して、グローバルな特徴学習とローカルな特徴学習を実現する。
次に、融合モジュールは2つのブランチの機能を統合するように設計されている。
fusionモジュールは2つの部分からなる。
1)グローバル・ローカル・フィーチャー・フュージョン(GLFF)と
2)Dense Fusion of Multi-scale Feature (DFM) の略。
前者は2つのブランチからの特徴情報ミッションを同じ規模で補償するために構築され、後者は特徴表現を強化するために構築される。
第3に、上記の2つの分枝と融合モジュールは、多視点協調学習技術を用いて、それらの重要性を示す各重みを取得し、総合的に最終決定を行う。
実験の結果,Fu-TransHNetネットワークは5つの広く使用されているベンチマークデータセットの既存の手法よりも優れていることがわかった。
特にetis-larib polypdbデータセットでは,fu-transhnetにより得られたmdiceが,最先端のhardnet-msegおよびtransfuse-sよりもそれぞれ12.4%,6.2%高かった。
関連論文リスト
- Towards Cooperative Federated Learning over Heterogeneous Edge/Fog
Networks [49.19502459827366]
フェデレートラーニング(FL)は、エッジ/フォグネットワーク上で機械学習(ML)モデルをトレーニングするための一般的なテクニックとして推奨されている。
FLの従来の実装は、ネットワーク間協力の可能性を大きく無視してきた。
我々は,デバイス・ツー・デバイス(D2D)とデバイス・ツー・サーバ(D2S)インタラクションに基づいて構築された協調的エッジ/フォグMLパラダイムである協調的連合学習(CFL)を提唱する。
論文 参考訳(メタデータ) (2023-03-15T04:41:36Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - A novel multimodal fusion network based on a joint coding model for lane
line segmentation [22.89466867866239]
本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
論文 参考訳(メタデータ) (2021-03-20T06:47:58Z) - Efficient Human Pose Estimation by Learning Deeply Aggregated
Representations [67.24496300046255]
深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。
私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。