Fugu-MT 論文翻訳(概要): Merging Context Clustering with Visual State Space Models for Medical Image Segmentation

論文の概要: Merging Context Clustering with Visual State Space Models for Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2501.01618v1
Date: Fri, 03 Jan 2025 03:25:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 16:38:31.518982
Title: Merging Context Clustering with Visual State Space Models for Medical Image Segmentation
Title（参考訳）: 医用画像セグメンテーションのためのコンテキストクラスタリングと視覚状態空間モデルとの融合
Authors: Yun Zhu, Dong Zhang, Yi Lin, Yifei Feng, Jinhui Tang,
Abstract要約: 既存のViMモデルにコンテキストクラスタリングモジュールを組み込んだコンテキストクラスタリングViM(CCViM)を導入する。提案手法は,医用画像分割作業における空間的文脈表現の強化を効果的に行う。
参考スコア（独自算出の注目度）: 32.57694973428823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical image segmentation demands the aggregation of global and local feature representations, posing a challenge for current methodologies in handling both long-range and short-range feature interactions. Recently, vision mamba (ViM) models have emerged as promising solutions for addressing model complexities by excelling in long-range feature iterations with linear complexity. However, existing ViM approaches overlook the importance of preserving short-range local dependencies by directly flattening spatial tokens and are constrained by fixed scanning patterns that limit the capture of dynamic spatial context information. To address these challenges, we introduce a simple yet effective method named context clustering ViM (CCViM), which incorporates a context clustering module within the existing ViM models to segment image tokens into distinct windows for adaptable local clustering. Our method effectively combines long-range and short-range feature interactions, thereby enhancing spatial contextual representations for medical image segmentation tasks. Extensive experimental evaluations on diverse public datasets, i.e., Kumar, CPM17, ISIC17, ISIC18, and Synapse demonstrate the superior performance of our method compared to current state-of-the-art methods. Our code can be found at https://github.com/zymissy/CCViM.
Abstract（参考訳）: 医用画像のセグメンテーションでは、グローバルな特徴表現と局所的な特徴表現の集約が求められており、長距離と短距離の両方の特徴相互作用を扱う上で、現在の手法の課題となっている。近年、視覚マンバ(ViM)モデルは、線形複雑度を持つ長距離特徴反復に優れ、モデル複雑度に対処する有望な解決策として出現している。しかし、既存のViMアプローチは、空間トークンを直接フラット化することで、短距離局所依存を保存することの重要性を軽視し、動的空間コンテキスト情報の取得を制限する固定走査パターンによって制約される。これらの課題に対処するために,既存のViMモデル内にコンテキストクラスタリングモジュールを組み込んで,画像トークンを適応可能なローカルクラスタリングのための異なるウィンドウに分割する,シンプルなコンテキストクラスタリングViM(CCViM)を導入する。提案手法は,医用画像分割作業における空間的文脈表現の強化を効果的に行う。各種公開データセット,すなわちKumar, CPM17, ISIC17, ISIC18, Synapseの大規模実験により, 現在の最先端手法と比較して, 提案手法の優れた性能を実証した。私たちのコードはhttps://github.com/zymissy/CCViM.comで参照できます。

関連論文リスト

MiCo: Multiple Instance Learning with Context-Aware Clustering for Whole Slide Image Analysis [9.39423986632543]
多発性インスタンスラーニング (MIL) は, 癌診断と予後に対する病理組織学的全スライド画像 (WSI) 解析において有意な可能性を示唆している。コンテキスト対応クラスタリング(MiCo)を用いた複数インスタンス学習フレームワークを提案する。 MiCoは、地域間の相互関係を強化し、組織間のセマンティックアソシエーションを強化するように設計されている。
論文参考訳（メタデータ） (2025-06-22T13:14:41Z)
Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology Images [1.3124513975412255]
空間転写学(spatial transcriptomics, ST)は、空間的文脈を保ちながら、転写産物全体の遺伝子発現プロファイリングを可能にする。現在の空間クラスタリング法では、高解像度の組織像と遺伝子発現データを完全に統合することができない。本稿では、遺伝子発現データと組織像の特徴を融合した、新しいコントラスト学習に基づく深層学習手法を提案する。
論文参考訳（メタデータ） (2024-10-31T00:32:24Z)
MambaMIC: An Efficient Baseline for Microscopic Image Classification with State Space Models [12.182070604073585]
本研究では,顕微鏡画像分類(MIC)タスクのための視覚バックボーンであるMambaMICを提案する。具体的には,MambaMIC Blockというローカル・グローバルなデュアルブランチアグリゲーションモジュールを紹介する。局所的な分岐では、局所的な畳み込みを用いて画素類似性を捉え、局所的な画素の忘れと知覚の増強を緩和する。グローバルブランチでは、SSMはグローバル依存関係を抽出し、Locally Aware Enhanced Filterはチャネルの冗長性とローカルピクセルの忘れを低減します。
論文参考訳（メタデータ） (2024-09-12T10:01:33Z)
SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。 CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-07-25T01:12:48Z)
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-03-28T13:32:49Z)
MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。私たちは各WSIを非指向グラフとして表現します。マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文参考訳（メタデータ） (2024-03-08T09:02:13Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Spatiotemporal k-means [39.98633724527769]
マルチスケールクラスタを解析できるk-means (STk) と呼ばれる2つの時間クラスタリング手法を提案する。我々は、STkMがより複雑な機械学習タスク、特にビデオにおける関心の検出と追跡の教師なし領域にどのように拡張できるかを示す。
論文参考訳（メタデータ） (2022-11-10T04:40:31Z)
Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文参考訳（メタデータ） (2022-05-16T17:47:44Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文参考訳（メタデータ） (2021-11-22T08:55:25Z)
Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文参考訳（メタデータ） (2021-07-28T03:46:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。