論文の概要: Merging Context Clustering with Visual State Space Models for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2501.01618v1
- Date: Fri, 03 Jan 2025 03:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:23.404881
- Title: Merging Context Clustering with Visual State Space Models for Medical Image Segmentation
- Title(参考訳): 医用画像セグメンテーションのためのコンテキストクラスタリングと視覚状態空間モデルとの融合
- Authors: Yun Zhu, Dong Zhang, Yi Lin, Yifei Feng, Jinhui Tang,
- Abstract要約: 既存のViMモデルにコンテキストクラスタリングモジュールを組み込んだコンテキストクラスタリングViM(CCViM)を導入する。
提案手法は,医用画像分割作業における空間的文脈表現の強化を効果的に行う。
- 参考スコア(独自算出の注目度): 32.57694973428823
- License:
- Abstract: Medical image segmentation demands the aggregation of global and local feature representations, posing a challenge for current methodologies in handling both long-range and short-range feature interactions. Recently, vision mamba (ViM) models have emerged as promising solutions for addressing model complexities by excelling in long-range feature iterations with linear complexity. However, existing ViM approaches overlook the importance of preserving short-range local dependencies by directly flattening spatial tokens and are constrained by fixed scanning patterns that limit the capture of dynamic spatial context information. To address these challenges, we introduce a simple yet effective method named context clustering ViM (CCViM), which incorporates a context clustering module within the existing ViM models to segment image tokens into distinct windows for adaptable local clustering. Our method effectively combines long-range and short-range feature interactions, thereby enhancing spatial contextual representations for medical image segmentation tasks. Extensive experimental evaluations on diverse public datasets, i.e., Kumar, CPM17, ISIC17, ISIC18, and Synapse demonstrate the superior performance of our method compared to current state-of-the-art methods. Our code can be found at https://github.com/zymissy/CCViM.
- Abstract(参考訳): 医用画像のセグメンテーションでは、グローバルな特徴表現と局所的な特徴表現の集約が求められており、長距離と短距離の両方の特徴相互作用を扱う上で、現在の手法の課題となっている。
近年、視覚マンバ(ViM)モデルは、線形複雑度を持つ長距離特徴反復に優れ、モデル複雑度に対処する有望な解決策として出現している。
しかし、既存のViMアプローチは、空間トークンを直接フラット化することで、短距離局所依存を保存することの重要性を軽視し、動的空間コンテキスト情報の取得を制限する固定走査パターンによって制約される。
これらの課題に対処するために,既存のViMモデル内にコンテキストクラスタリングモジュールを組み込んで,画像トークンを適応可能なローカルクラスタリングのための異なるウィンドウに分割する,シンプルなコンテキストクラスタリングViM(CCViM)を導入する。
提案手法は,医用画像分割作業における空間的文脈表現の強化を効果的に行う。
各種公開データセット,すなわちKumar, CPM17, ISIC17, ISIC18, Synapseの大規模実験により, 現在の最先端手法と比較して, 提案手法の優れた性能を実証した。
私たちのコードはhttps://github.com/zymissy/CCViM.comで参照できます。
関連論文リスト
- Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology Images [1.3124513975412255]
空間転写学(spatial transcriptomics, ST)は、空間的文脈を保ちながら、転写産物全体の遺伝子発現プロファイリングを可能にする。
現在の空間クラスタリング法では、高解像度の組織像と遺伝子発現データを完全に統合することができない。
本稿では、遺伝子発現データと組織像の特徴を融合した、新しいコントラスト学習に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T00:32:24Z) - SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。
提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。
CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-25T01:12:48Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。