論文の概要: Hybrid Transformer-Mamba Architecture for Weakly Supervised Volumetric Medical Segmentation
- arxiv url: http://arxiv.org/abs/2512.10353v1
- Date: Thu, 11 Dec 2025 07:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.237661
- Title: Hybrid Transformer-Mamba Architecture for Weakly Supervised Volumetric Medical Segmentation
- Title(参考訳): 弱監視ボリュームメディカルセグメンテーションのためのハイブリッドトランス-マンバアーキテクチャ
- Authors: Yiheng Lyu, Lian Xu, Mohammed Bennamoun, Farid Boussaid, Coen Arrow, Girish Dwivedi,
- Abstract要約: TranSambaはトランスフォーマーとマンバのハイブリッドアーキテクチャで、3Dコンテキストを捉え、弱い教師付き医療セグメンテーションを実現する。
TranSambaは、入力体積深さと線形にスケールする時間複雑性を伴う効果的なボリュームモデリングを実現する。
- 参考スコア(独自算出の注目度): 24.49842564073947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation offers a label-efficient solution to train segmentation models for volumetric medical imaging. However, existing approaches often rely on 2D encoders that neglect the inherent volumetric nature of the data. We propose TranSamba, a hybrid Transformer-Mamba architecture designed to capture 3D context for weakly supervised volumetric medical segmentation. TranSamba augments a standard Vision Transformer backbone with Cross-Plane Mamba blocks, which leverage the linear complexity of state space models for efficient information exchange across neighboring slices. The information exchange enhances the pairwise self-attention within slices computed by the Transformer blocks, directly contributing to the attention maps for object localization. TranSamba achieves effective volumetric modeling with time complexity that scales linearly with the input volume depth and maintains constant memory usage for batch processing. Extensive experiments on three datasets demonstrate that TranSamba establishes new state-of-the-art performance, consistently outperforming existing methods across diverse modalities and pathologies. Our source code and trained models are openly accessible at: https://github.com/YihengLyu/TranSamba.
- Abstract(参考訳): 弱教師付きセマンティックセグメンテーションは、ボリューム医療画像のための訓練セグメンテーションモデルにラベル効率のよいソリューションを提供する。
しかし、既存のアプローチはデータ固有のボリュームの性質を無視した2Dエンコーダに依存していることが多い。
そこで我々は,TranSambaというハイブリッドトランスフォーマー・マンバアーキテクチャを提案する。
TranSambaはCross-Plane Mambaブロックで標準のVision Transformerバックボーンを強化し、状態空間モデルの線形複雑さを活用して、隣接するスライス間の効率的な情報交換を行う。
情報交換は、Transformerブロックによって計算されたスライス内のペアの自己注意を高め、オブジェクトのローカライゼーションのためのアテンションマップに直接寄与する。
TranSambaは、入力ボリューム深度と線形にスケールする時間複雑さを伴う効果的なボリュームモデリングを実現し、バッチ処理に一定のメモリ使用量を維持する。
3つのデータセットに関する大規模な実験は、TranSambaが新しい最先端のパフォーマンスを確立し、さまざまなモダリティや病理にまたがる既存のメソッドを一貫して上回っていることを示している。
私たちのソースコードとトレーニングされたモデルは、https://github.com/YihengLyu/TranSamba.comで公開されています。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [66.80624029365448]
本稿では,Transformer事前学習知識の再利用を容易にするクロスアーキテクチャな知識伝達パラダイムであるTransMambaを提案する。
本稿では,マンバをベースとしたモデルのトレーニングを高速化する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z) - A Volumetric Transformer for Accurate 3D Tumor Segmentation [25.961484035609672]
本稿では,医療画像セグメンテーションのためのトランスフォーマーアーキテクチャを提案する。
TransformerはU字型のボリュームエンコーダデコーダ設計で、入力ボクセル全体を処理している。
モデルがデータセット間でより良い表現を転送し、データの破損に対して堅牢であることを示します。
論文 参考訳(メタデータ) (2021-11-26T02:49:51Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Generalize Ultrasound Image Segmentation via Instant and Plug & Play
Style Transfer [65.71330448991166]
ディープセグメンテーションモデルは、外観が不明な画像に一般化する。
モデルの再トレーニングは、高いレイテンシと複雑なパイプラインにつながる。
未知の外観変化下での堅牢なセグメンテーションのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-11T05:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。