論文の概要: HiPerformer: A High-Performance Global-Local Segmentation Model with Modular Hierarchical Fusion Strategy
- arxiv url: http://arxiv.org/abs/2509.20280v1
- Date: Wed, 24 Sep 2025 16:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.898098
- Title: HiPerformer: A High-Performance Global-Local Segmentation Model with Modular Hierarchical Fusion Strategy
- Title(参考訳): HiPerformer: Modular Hierarchical Fusion Strategyを用いた高性能グローバルローカルセグメンテーションモデル
- Authors: Dayu Tan, Zhenpeng Xu, Yansen Su, Xin Peng, Chunhou Zheng, Weimin Zhong,
- Abstract要約: 局所的な詳細とグローバルな文脈は、医用画像のセグメンテーションにおいて不可欠であり、それらを効果的に統合することは、高い精度を達成するために不可欠である。
マルチソース機能を並列に融合する新しいモジュラー階層アーキテクチャであるHiPerformerを提案する。
ローカル・グローバル・フィーチャー・フュージョン(LGFF)モジュールを設計し,局所的詳細情報と大域的意味情報の正確かつ効率的な統合を実現する。
11の公開データセットの実験では、提案手法が既存のセグメンテーション手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 14.223063820829047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both local details and global context are crucial in medical image segmentation, and effectively integrating them is essential for achieving high accuracy. However, existing mainstream methods based on CNN-Transformer hybrid architectures typically employ simple feature fusion techniques such as serial stacking, endpoint concatenation, or pointwise addition, which struggle to address the inconsistencies between features and are prone to information conflict and loss. To address the aforementioned challenges, we innovatively propose HiPerformer. The encoder of HiPerformer employs a novel modular hierarchical architecture that dynamically fuses multi-source features in parallel, enabling layer-wise deep integration of heterogeneous information. The modular hierarchical design not only retains the independent modeling capability of each branch in the encoder, but also ensures sufficient information transfer between layers, effectively avoiding the degradation of features and information loss that come with traditional stacking methods. Furthermore, we design a Local-Global Feature Fusion (LGFF) module to achieve precise and efficient integration of local details and global semantic information, effectively alleviating the feature inconsistency problem and resulting in a more comprehensive feature representation. To further enhance multi-scale feature representation capabilities and suppress noise interference, we also propose a Progressive Pyramid Aggregation (PPA) module to replace traditional skip connections. Experiments on eleven public datasets demonstrate that the proposed method outperforms existing segmentation techniques, demonstrating higher segmentation accuracy and robustness. The code is available at https://github.com/xzphappy/HiPerformer.
- Abstract(参考訳): 局所的な詳細とグローバルな文脈は、医用画像のセグメンテーションにおいて不可欠であり、それらを効果的に統合することは、高い精度を達成するために不可欠である。
しかし、CNN-Transformerハイブリッドアーキテクチャをベースとした既存の主流手法では、シリアルスタックリングやエンドポイント結合、ポイントワイド付加といった単純な機能融合技術が採用されている。
上記の課題に対処するため、我々は革新的にHiPerformerを提案する。
HiPerformerのエンコーダは、マルチソース機能を動的に並列に融合する新しいモジュラー階層アーキテクチャを採用し、不均一な情報を階層的に深く統合することを可能にする。
モジュラー階層設計は、エンコーダの各ブランチの独立したモデリング能力を保持するだけでなく、レイヤ間の十分な情報伝達を保証し、従来の積み重ね方式による機能劣化や情報損失を効果的に回避する。
さらに,ローカル・グローバル・フィーチャー・フュージョン(LGFF)モジュールを設計し,局所的な詳細情報や大域的な意味情報の正確かつ効率的な統合を実現し,特徴の不整合を効果的に軽減し,より包括的な特徴表現を実現する。
マルチスケールの特徴表現機能をさらに強化し、ノイズ干渉を抑制するため、従来のスキップ接続を置き換えるためのプログレッシブ・ピラミッド・アグリゲーション(PPA)モジュールも提案する。
11の公開データセットの実験では、提案手法が既存のセグメンテーション手法より優れており、セグメンテーション精度とロバスト性が高いことが示されている。
コードはhttps://github.com/xzphappy/HiPerformer.comで入手できる。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。