論文の概要: MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.06700v1
- Date: Sun, 09 Mar 2025 17:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:33.812171
- Title: MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation
- Title(参考訳): MemorySAM:マルチモーダルセマンティックセマンティックセグメンテーションのためのセグメンテーションモデル2によるモーダリティとセマンティックの記憶
- Authors: Chenfei Liao, Xu Zheng, Yuanhuiyi Lyu, Haiwei Xue, Yihong Cao, Jiawen Wang, Kailun Yang, Xuming Hu,
- Abstract要約: 大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。
ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。
私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
- 参考スコア(独自算出の注目度): 22.482211353379927
- License:
- Abstract: Research has focused on Multi-Modal Semantic Segmentation (MMSS), where pixel-wise predictions are derived from multiple visual modalities captured by diverse sensors. Recently, the large vision model, Segment Anything Model 2 (SAM2), has shown strong zero-shot segmentation performance on both images and videos. When extending SAM2 to MMSS, two issues arise: 1. How can SAM2 be adapted to multi-modal data? 2. How can SAM2 better understand semantics? Inspired by cross-frame correlation in videos, we propose to treat multi-modal data as a sequence of frames representing the same scene. Our key idea is to ''memorize'' the modality-agnostic information and 'memorize' the semantics related to the targeted scene. To achieve this, we apply SAM2's memory mechanisms across multi-modal data to capture modality-agnostic features. Meanwhile, to memorize the semantic knowledge, we propose a training-only Semantic Prototype Memory Module (SPMM) to store category-level prototypes across training for facilitating SAM2's transition from instance to semantic segmentation. A prototypical adaptation loss is imposed between global and local prototypes iteratively to align and refine SAM2's semantic understanding. Extensive experimental results demonstrate that our proposed MemorySAM outperforms SoTA methods by large margins on both synthetic and real-world benchmarks (65.38% on DELIVER, 52.88% on MCubeS). Source code will be made publicly available.
- Abstract(参考訳): マルチモーダルセマンティックセマンティックセマンティックセグメンテーション(MMSS)の研究は、様々なセンサーが捉えた複数の視覚的モダリティからピクセルワイズ予測を導き出す。
近年,大きな視覚モデルであるSAM2 (Seegment Anything Model 2) は,画像とビデオの両方において強いゼロショットセグメンテーション性能を示している。
SAM2 を MMSS に拡張する場合、2つの問題が生じる。
1.SAM2をマルチモーダルデータに適用するには?
2. SAM2はセマンティクスをよりよく理解できますか?
ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。
私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
これを実現するために、SAM2のメモリ機構をマルチモーダルデータに適用し、モダリティに依存しない特徴を捉える。
一方、セマンティックな知識を記憶するために、SAM2のインスタンスからセマンティックセグメンテーションへの移行を促進するために、トレーニング間でカテゴリレベルのプロトタイプを格納するためのトレーニング専用セマンティックプロトタイプメモリモジュール(SPMM)を提案する。
SAM2のセマンティック理解を調整・洗練するために、グローバルプロトタイプとローカルプロトタイプの間で原型適応損失が反復的に課される。
大規模な実験の結果、提案したMemorySAMは、合成ベンチマークと実世界のベンチマークの両方で大きなマージンでSoTA法を上回っている(DeLIVERでは65.38%、MCubeSでは52.88%)。
ソースコードは公開されます。
関連論文リスト
- Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - GoodSAM++: Bridging Domain and Capacity Gaps via Segment Anything Model for Panoramic Semantic Segmentation [22.344399402787644]
GoodSAM++はSAMの強力なゼロショットインスタンスセグメンテーション機能を利用して、コンパクトなパノラマ意味セグメンテーションモデルを学ぶ新しいフレームワークである。
GoodSAM++は、1)パノラマ画像のセマンティックラベルと固有の歪み問題をSAMが提供できないこと、2)SAMと学生の間に大きな容量格差があること、の2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T06:53:10Z) - Segment Anything with Multiple Modalities [61.74214237816402]
我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。
MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。
1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T03:45:40Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。