論文の概要: ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection
- arxiv url: http://arxiv.org/abs/2603.03187v1
- Date: Tue, 03 Mar 2026 17:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.897026
- Title: ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection
- Title(参考訳): ProSMA-UNet: 近距離スキップ特徴選択のためのデコーダ条件
- Authors: Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing, Guang Yang, Carola-Bibiane Schönlieb, Angelica I. Aviles-Rivero,
- Abstract要約: 医療画像のセグメンテーションは一般にU-NetのようなU字型エンコーダデコーダアーキテクチャに依存している。
スキップ接続は、デコーダに高解像度のエンコーダ機能を注入することで、細かな空間的詳細を保存する。
これらのスキップ経路は、低レベルのテクスチャ、バックグラウンドクラッタ、取得ノイズも伝搬する。
本稿では,デコーダ条件付きスパース特徴選択問題としてスキップゲーティングを再構成するProSMA-UNetを提案する。
- 参考スコア(独自算出の注目度): 21.025038304332714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation commonly relies on U-shaped encoder-decoder architectures such as U-Net, where skip connections preserve fine spatial detail by injecting high-resolution encoder features into the decoder. However, these skip pathways also propagate low-level textures, background clutter, and acquisition noise, allowing irrelevant information to bypass deeper semantic filtering -- an issue that is particularly detrimental in low-contrast clinical imaging. Although attention gates have been introduced to address this limitation, they typically produce dense sigmoid masks that softly reweight features rather than explicitly removing irrelevant activations. We propose ProSMA-UNet (Proximal-Sparse Multi-Scale Attention U-Net), which reformulates skip gating as a decoder-conditioned sparse feature selection problem. ProSMA constructs a multi-scale compatibility field using lightweight depthwise dilated convolutions to capture relevance across local and contextual scales, then enforces explicit sparsity via an $\ell_1$ proximal operator with learnable per-channel thresholds, yielding a closed-form soft-thresholding gate that can remove noisy responses. To further suppress semantically irrelevant channels, ProSMA incorporates decoder-conditioned channel gating driven by global decoder context. Extensive experiments on challenging 2D and 3D benchmarks demonstrate state-of-the-art performance, with particularly large gains ($\approx20$\%) on difficult 3D segmentation tasks. Project page: https://math-ml-x.github.io/ProSMA-UNet/
- Abstract(参考訳): 医用画像のセグメンテーションはU-NetのようなU字型のエンコーダ・デコーダアーキテクチャに依存している。
しかし、これらのスキップ経路は、低レベルのテクスチャ、背景のぼかし、取得ノイズを伝播させ、深いセマンティックフィルタリングをバイパスする無関係な情報を可能にする。
この制限に対処するためにアテンションゲートが導入されたが、通常は無関係なアクティベーションを明示的に除去するのではなく、ソフトにリウェイトした特徴を持つ密集したシグモイドマスクを生成する。
ProSMA-UNet(Proximal-Sparse Multi-Scale Attention U-Net)を提案する。
ProSMAは、局所スケールと文脈スケールの関連性を捉えるために、軽量な奥行き拡張畳み込みを用いてマルチスケールの互換性フィールドを構築し、学習可能なチャネルごとのしきい値を持つ$\ell_1$ Proximal演算子を介して明示的な間隔を強制し、ノイズ応答を除去できる閉じた形式のソフトスレッディングゲートを生成する。
意味的に無関係なチャネルをさらに抑制するため、ProSMAはグローバルデコーダコンテキストによって駆動されるデコーダ条件付きチャネルゲーティングを組み込んでいる。
挑戦的な2Dおよび3Dベンチマークに関する大規模な実験は、特に難しい3Dセグメンテーションタスクにおいて、最先端のパフォーマンスを示します($\approx20$\%)。
プロジェクトページ:https://math-ml-x.github.io/ProSMA-UNet/
関連論文リスト
- From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning [45.1920794546889]
我々は、エンコーダとデコーダが相互に相互に洗練されるような活発なサイクルを導入する。
エンコーダとデコーダの間の表現的ギャップを埋めることで、SRLはビデオオブジェクト中心の学習ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2026-02-03T11:11:58Z) - Tracking spatial temporal details in ultrasound long video via wavelet analysis and memory bank [5.015880223095155]
超音波ビデオの低コントラストレベルとノイズ背景は、臓器境界の誤認を引き起こす。
本稿では,メモリバンクを用いたウェーブレットフィルタと融合ネットワークを提案し,詳細な空間的特徴を抽出する。
提案法は, 甲状腺結節をより正確に分節し, 超音波像を長時間撮影する症例に対して有効性を示した。
論文 参考訳(メタデータ) (2025-12-17T04:11:05Z) - MACMD: Multi-dilated Contextual Attention and Channel Mixer Decoding for Medical Image Segmentation [10.074858409073292]
医用画像のセグメンテーションは解剖学的構造の変化による課題に直面している。
トランスフォーマーはこの問題を自己認識機構で緩和するが、局所的な文脈情報を保存できない。
本稿では,MACMDに基づくデコーダを提案する。このデコーダは,アテンション機構を強化し,エンコーダとデコーダのチャネル混合を容易にする。
論文 参考訳(メタデータ) (2025-11-08T02:22:44Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [55.21950038225407]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - SoftPool++: An Encoder-Decoder Network for Point Cloud Completion [93.54286830844134]
本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。
提案した演算子は、最大プールやボキセル化操作を一切必要としない。
提案手法は,低解像度・高解像度の形状仕上げにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T15:31:36Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Attention W-Net: Improved Skip Connections for better Representations [5.027571997864707]
我々は網膜血管分割のための新しいU-NetアーキテクチャであるAttention W-Netを提案する。
我々はAUCとF1スコアの0.8407と0.9833を観測し、LadderNetのバックボーンを大きく改善した。
論文 参考訳(メタデータ) (2021-10-17T12:44:36Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。