論文の概要: Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation
- arxiv url: http://arxiv.org/abs/2603.02727v2
- Date: Thu, 05 Mar 2026 00:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.262384
- Title: Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation
- Title(参考訳): Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation (特集 New Trends)
- Authors: Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof, Minjia Zhang,
- Abstract要約: PVT-GDLAはデコーダ中心のトランスフォーマーで、線形時間でシャープで長距離の依存関係を復元する。
これは、CT、MRI、超音波、皮膚内視鏡のベンチマークで同等のトレーニング予算で最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 15.30336007288786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation requires models that preserve fine anatomical boundaries while remaining efficient for clinical deployment. While transformers capture long-range dependencies, they suffer from quadratic attention cost and large data requirements, whereas CNNs are compute-friendly yet struggle with global reasoning. Linear attention offers $\mathcal{O}(N)$ scaling, but often exhibits training instability and attention dilution, yielding diffuse maps. We introduce PVT-GDLA, a decoder-centric Transformer that restores sharp, long-range dependencies at linear time. Its core, Gated Differential Linear Attention (GDLA), computes two kernelized attention paths on complementary query/key subspaces and subtracts them with a learnable, channel-wise scale to cancel common-mode noise and amplify relevant context. A lightweight, head-specific gate injects nonlinearity and input-adaptive sparsity, mitigating attention sink, and a parallel local token-mixing branch with depthwise convolution strengthens neighboring-token interactions, improving boundary fidelity, all while retaining $\mathcal{O}(N)$ complexity and low parameter overhead. Coupled with a pretrained Pyramid Vision Transformer (PVT) encoder, PVT-GDLA achieves state-of-the-art accuracy across CT, MRI, ultrasound, and dermoscopy benchmarks under equal training budgets, with comparable parameters but lower FLOPs than CNN-, Transformer-, hybrid-, and linear-attention baselines. PVT-GDLA provides a practical path to fast, scalable, high-fidelity medical segmentation in clinical environments and other resource-constrained settings.
- Abstract(参考訳): 医用画像のセグメンテーションには、詳細な解剖学的境界を維持しながら、臨床展開に効率的なモデルが必要である。
トランスフォーマーは長距離依存関係をキャプチャするが、2次的な注意コストと大規模なデータ要求に悩まされる一方、CNNは計算に優しいが、グローバルな推論に苦慮している。
線形注意は$\mathcal{O}(N)$スケーリングを提供するが、しばしばトレーニング不安定性と注意の希釈を示し、拡散写像をもたらす。
本稿では,デコーダ中心の変換器であるPVT-GDLAを導入する。
コアとなるGated Differential Linear Attention (GDLA)は、補完的なクエリ/キーサブ空間上の2つのカーネル化された注意経路を計算し、学習可能なチャネルワイドスケールでそれらを減算し、共通のモードノイズをキャンセルし、関連するコンテキストを増幅する。
軽量で頭部特異的なゲートは、非線形性と入力適応の間隔を注入し、注意シンクを緩和し、深度に畳み込みを持つ平行な局所トークン混合分岐は隣り合う相互作用を強化し、境界の忠実度を向上し、$\mathcal{O}(N)$複雑さと低パラメータオーバーヘッドを保持しながら、全てを継続する。
PVT-GDLAは、事前訓練されたピラミッドビジョントランスフォーマー(PVT)エンコーダと組み合わせて、CT、MRI、超音波、皮膚内視鏡のベンチマークを同等のトレーニング予算の下で、CNN-、Transformer-、ハイブリッド、リニアアテンションベースラインよりも低いパラメータで、最先端の精度で達成する。
PVT-GDLAは、臨床環境や他のリソース制約のある環境において、高速でスケーラブルで高忠実な医療セグメント化への実践的な道を提供する。
関連論文リスト
- Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series [15.981619117274667]
脳波(EEG)や心電図(ECG)などの医療時系列データの正確な分析は、医療応用において重要な役割を担っている。
ディープラーニングの最近の進歩は、Transformerベースのモデルを利用して、時間的依存関係を効果的にキャプチャしている。
MedTS信号は本質的に集中しているが、Transformerの注意機構は分散化されている。
分散された注意を置き換えるための集中型モジュールであるCoTARを提案する。
論文 参考訳(メタデータ) (2026-02-09T04:39:22Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - MedLiteNet: Lightweight Hybrid Medical Image Segmentation Model [17.73370811236741]
そこで本研究では,Dermoscopic segmentationに適した軽量CNNトランスフォーマーであるMedLiteNetを紹介する。
エンコーダは、Deep-wise Mobile Inverted Bottleneckブロックを積み重ねて計算を抑え、ボトルネックレベルのクロススケールトークン混合ユニットを挿入して解像度間で情報を交換し、境界対応の自己保持モジュールを埋め込み、病変の輪郭を鋭くする。
論文 参考訳(メタデータ) (2025-09-03T05:59:13Z) - U-R-VEDA: Integrating UNET, Residual Links, Edge and Dual Attention, and Vision Transformer for Accurate Semantic Segmentation of CMRs [0.0]
深層学習に基づく拡張UNetモデルU-R-Vedaを提案する。
このモデルは心臓磁気共鳴(CMR)画像のセマンティックセグメンテーションを著しく改善する。
その結果,U-R-Vedaの平均精度は95.2%であった。
論文 参考訳(メタデータ) (2025-06-25T04:10:09Z) - Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis [9.090504201460817]
ヒストホイルスライド画像(英語版)(WSI)解析は、医師の日常業務における臨床がん診断のゴールドスタンダードとなっている。
従来の手法では、スライドレベルラベルのみを与えられたスライドレベルの予測を可能にするために、マルチパスラーニングが一般的であった。
大規模なWSIにおける長いシーケンスの計算複雑性を軽減するため、HIPTではリージョンスライシング、TransMILでは完全な自己アテンションの近似を採用している。
論文 参考訳(メタデータ) (2024-10-18T06:12:36Z) - Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - Unlocking Fine-Grained Details with Wavelet-based High-Frequency
Enhancement in Transformers [4.208461204572879]
医用画像のセグメンテーションは、診断、治療計画、疾患モニタリングにおいて重要な役割を担っている。
本稿では,自己注意マップを慎重に再設計することで,トランスフォーマーモデルの局所的特徴不足に対処する。
そこで本研究では,マルチスケールのコンテキスト拡張ブロックをスキップ接続内で提案し,スケール間の依存関係を適応的にモデル化する。
論文 参考訳(メタデータ) (2023-08-25T15:42:19Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。