論文の概要: An Effective UNet Using Feature Interaction and Fusion for Organ Segmentation in Medical Image
- arxiv url: http://arxiv.org/abs/2409.05324v2
- Date: Sat, 26 Jul 2025 07:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.367492
- Title: An Effective UNet Using Feature Interaction and Fusion for Organ Segmentation in Medical Image
- Title(参考訳): 医用画像の臓器分割のための特徴相互作用と融合を用いた効果的なUNet
- Authors: Xiaolin Gou, Chuanlin Liao, Jizhe Zhou, Fengshuo Ye, Yi Lin,
- Abstract要約: 3つのプラグ・アンド・プレイモジュールを含む,新しいU字型モデルを提案する。
チャネル空間相互作用モジュールを導入し、エンコーダとデコーダの段間相互作用をモデル化することにより、スキップ接続特性の品質を向上させる。
チャネルアテンションに基づくモジュールをデコーダブロックに組み込んで、重要な特徴の表現を強化するとともに、無関係な特徴の表現を抑える。
マルチレベル融合モジュールは、マルチスケールデコーダの特徴を集約し、最終的な予測における空間的詳細と一貫性を改善するように設計されている。
- 参考スコア(独自算出の注目度): 5.510679875888542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, pre-trained encoders are widely used in medical image segmentation due to their strong capability in extracting rich and generalized feature representations. However, existing methods often fail to fully leverage these features, limiting segmentation performance. In this work, a novel U-shaped model is proposed to address the above issue, including three plug-and-play modules. A channel spatial interaction module is introduced to improve the quality of skip connection features by modeling inter-stage interactions between the encoder and decoder. A channel attention-based module integrating squeeze-and-excitation mechanisms with convolutional layers is employed in the decoder blocks to strengthen the representation of critical features while suppressing irrelevant ones. A multi-level fusion module is designed to aggregate multi-scale decoder features, improving spatial detail and consistency in the final prediction. Comprehensive experiments on the synapse multi-organ segmentation dataset and automated cardiac diagnosis challenge dataset demonstrate that the proposed model outperforms existing state-of-the-art methods, achieving the highest average Dice score of 86.05% and 92.58%, yielding improvements of 1.15% and 0.26%, respectively. In addition, the proposed model provides a balance between accuracy and computational complexity, with only 86.91 million parameters and 23.26 giga floating-point operations.
- Abstract(参考訳): 現在では,リッチで汎用的な特徴表現を抽出する能力の強い医用画像セグメンテーションにおいて,事前学習エンコーダが広く用いられている。
しかし、既存のメソッドはこれらの機能を十分に活用することができず、セグメンテーションのパフォーマンスが制限される。
本研究では,3つのプラグ・アンド・プレイモジュールを含む,新しいU字型モデルを提案する。
チャネル空間相互作用モジュールを導入し、エンコーダとデコーダの段間相互作用をモデル化することにより、スキップ接続特性の品質を向上させる。
チャネルアテンションに基づくモジュールをデコーダブロックに組み込んで、重要な特徴の表現を強化するとともに、無関係な特徴の表現を抑える。
マルチレベル融合モジュールは、マルチスケールデコーダの特徴を集約し、最終的な予測における空間的詳細と一貫性を改善するように設計されている。
シナプス多臓器セグメンテーションデータセットと自動心臓診断課題データセットの総合的な実験により、提案モデルは既存の最先端手法よりも優れ、Diceスコアは86.05%と92.58%で、それぞれ1.15%と0.26%の改善が得られた。
さらに、提案モデルは、86.91万のパラメータと23.26ギガの浮動小数点演算しか持たない精度と計算複雑性のバランスを与える。
関連論文リスト
- Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - MSV-Mamba: A Multiscale Vision Mamba Network for Echocardiography Segmentation [8.090155401012169]
新興モデルであるMambaは、多様なビジョンや言語タスクに広く適用されている、最先端のアプローチの1つだ。
本稿では,大画面マルチスケールマンバモジュールと階層的特徴融合を併用したU字型深層学習モデルを提案する。
論文 参考訳(メタデータ) (2025-01-13T08:22:10Z) - PINN-EMFNet: PINN-based and Enhanced Multi-Scale Feature Fusion Network for Breast Ultrasound Images Segmentation [5.246262946799736]
本研究では,PINNに基づくマルチスケール機能融合ネットワークを提案する。
ネットワークは、いくつかの構造的革新を通じて、効率的に統合し、グローバルにマルチスケールの機能をモデル化する。
このデコーダ部では,マルチスケール・フィーチャー・リファインメント・デコーダが採用され,マルチスケール・スーパービジョン機構と修正モジュールを組み合わせることで,セグメンテーション精度と適応性を大幅に向上する。
論文 参考訳(メタデータ) (2024-12-22T09:16:00Z) - Few-Shot Medical Image Segmentation with Large Kernel Attention [5.630842216128902]
本稿では,包括的特徴表現能力を持つ数ショットの医用セグメンテーションモデルを提案する。
本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。
その結果,本手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-27T02:28:30Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - MOSformer: Momentum encoder-based inter-slice fusion transformer for
medical image segmentation [15.94370954641629]
2.5Dベースのセグメンテーションモデルは、しばしば各スライスを等しく扱い、スライス間の情報を効果的に学習し活用することができない。
この問題を解決するために,新しいMomentumエンコーダを用いたスライス間核融合トランス (MOSformer) を提案する。
MOSformerは3つのベンチマークデータセット(Synapse、ACDC、AMOS)で評価され、それぞれ85.63%、92.19%、85.43%の新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-01-22T11:25:59Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy
Dichotomous Image Segmentation [48.995367430746086]
Dichotomous Image rendering (DIS) は、自然の風景からカテゴリーに依存しない前景の物体をピンポイントすることを目的としている。
本稿では, トランクと構造同定の有効性を高めるために, 相補的特徴を再構成し, 分割的に配置する, UDUN (Unite-Divide-Unite Network) を提案する。
1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。
論文 参考訳(メタデータ) (2023-07-26T09:04:35Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach [3.9548535445908928]
CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
論文 参考訳(メタデータ) (2023-01-25T22:09:07Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。