論文の概要: XAttnRes: Cross-Stage Attention Residuals for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2604.03297v1
- Date: Sat, 28 Mar 2026 15:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.478873
- Title: XAttnRes: Cross-Stage Attention Residuals for Medical Image Segmentation
- Title(参考訳): XAttnRes:医療画像分割のためのクロスステージアテンション残像
- Authors: Xinyu Liu, Qing Xu, Zhen Chen,
- Abstract要約: Cross-Stage Attention Residuals (XAttnRes)は、エンコーダとデコーダの両方の出力を蓄積したグローバルな機能履歴プールを維持するメカニズムである。
XAttnResは、4つのデータセットと3つのイメージングモードのパフォーマンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 7.618393856935408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of Large Language Models (LLMs), Attention Residuals have recently demonstrated that learned, selective aggregation over all preceding layer outputs can outperform fixed residual connections. We propose Cross-Stage Attention Residuals (XAttnRes), a mechanism that maintains a global feature history pool accumulating both encoder and decoder stage outputs. Through lightweight pseudo-query attention, each stage selectively aggregates from all preceding representations. To bridge the gap between the same-dimensional Transformer layers in LLMs and the multi-scale encoder-decoder stages in segmentation networks, XAttnRes introduces spatial alignment and channel projection steps that handle cross-resolution features with negligible overhead. When added to existing segmentation networks, XAttnRes consistently improves performance across four datasets and three imaging modalities. We further observe that XAttnRes alone, even without skip connections, achieves performance on par with the baseline, suggesting that learned aggregation can recover the inter-stage information flow traditionally provided by predetermined connections.
- Abstract(参考訳): LLM(Large Language Models)の分野では、アテンション残差(Attention Residuals)が最近、前層のすべての出力に対して学習された選択的アグリゲーションが、固定された残差接続よりも優れていることを示した。
エンコーダとデコーダの両方の出力を蓄積したグローバルな特徴履歴プールを維持する機構であるクロスステージアテンションレシダル(XAttnRes)を提案する。
軽量な擬似クエリアテンションにより、各ステージは前述したすべての表現から選択的に集約される。
LLMにおける同次元トランスフォーマー層とセグメンテーションネットワークにおけるマルチスケールエンコーダデコーダステージとのギャップを埋めるために、XAttnResは空間アライメントとチャネルプロジェクションのステップを導入し、オーバヘッドが無視できないクロスレゾルな特徴を扱う。
既存のセグメンテーションネットワークに追加されると、XAttnResは4つのデータセットと3つの画像モダリティのパフォーマンスを一貫して改善する。
さらに,XAttnResだけでは,接続をスキップしなくても,ベースラインと同等の性能を達成でき,学習した集約が,従来から所定の接続で提供されてきた段階間情報フローを回復できることが示唆された。
関連論文リスト
- Attention Residuals [38.59138244826294]
PreNorm との残余接続は現代の LLM では標準的なものであるが、固定単位重み付きで全ての層出力を蓄積する。
本稿では,アテンション残余(AttnRes)を提案する。
論文 参考訳(メタデータ) (2026-03-16T09:32:21Z) - SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation [37.2240333333522]
Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収めており、その変種はセマンティックセグメンテーションを含む様々な下流タスクで広く検証されている。
本稿では,意味的セグメンテーションのために設計された革新的なデコーダヘッドであるStrip Cross-Attention (SCASeg)を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:00:09Z) - Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。
本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。
ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文 参考訳(メタデータ) (2024-10-08T02:17:38Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Adaptive feature recombination and recalibration for semantic
segmentation with Fully Convolutional Networks [57.64866581615309]
完全畳み込みネットワークを用いたセマンティックセグメンテーションに適応した特徴の組換えと空間適応型再分類ブロックを提案する。
その結果、再結合と再校正は競争ベースラインの結果を改善し、3つの異なる問題にまたがって一般化することを示した。
論文 参考訳(メタデータ) (2020-06-19T15:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。