論文の概要: MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection
- arxiv url: http://arxiv.org/abs/2505.00739v1
- Date: Wed, 30 Apr 2025 02:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.76105
- Title: MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection
- Title(参考訳): MoSAM:時空間記憶選択型モーションガイドセグメンテーションモデル
- Authors: Qiushi Yang, Yuan Yao, Miaomiao Cui, Liefeng Bo,
- Abstract要約: モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
MoSAMは、他の競合と比べて最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 21.22536962888316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent Segment Anything Model 2 (SAM2) has demonstrated exceptional capabilities in interactive object segmentation for both images and videos. However, as a foundational model on interactive segmentation, SAM2 performs segmentation directly based on mask memory from the past six frames, leading to two significant challenges. Firstly, during inference in videos, objects may disappear since SAM2 relies solely on memory without accounting for object motion information, which limits its long-range object tracking capabilities. Secondly, its memory is constructed from fixed past frames, making it susceptible to challenges associated with object disappearance or occlusion, due to potentially inaccurate segmentation results in memory. To address these problems, we present MoSAM, incorporating two key strategies to integrate object motion cues into the model and establish more reliable feature memory. Firstly, we propose Motion-Guided Prompting (MGP), which represents the object motion in both sparse and dense manners, then injects them into SAM2 through a set of motion-guided prompts. MGP enables the model to adjust its focus towards the direction of motion, thereby enhancing the object tracking capabilities. Furthermore, acknowledging that past segmentation results may be inaccurate, we devise a Spatial-Temporal Memory Selection (ST-MS) mechanism that dynamically identifies frames likely to contain accurate segmentation in both pixel- and frame-level. By eliminating potentially inaccurate mask predictions from memory, we can leverage more reliable memory features to exploit similar regions for improving segmentation results. Extensive experiments on various benchmarks of video object segmentation and video instance segmentation demonstrate that our MoSAM achieves state-of-the-art results compared to other competitors.
- Abstract(参考訳): 最近のSegment Anything Model 2 (SAM2)は、画像とビデオの両方のインタラクティブなオブジェクトセグメンテーションにおいて、例外的な機能を示している。
しかし、インタラクティブセグメンテーションの基盤モデルとして、SAM2は過去6フレームのマスクメモリを直接ベースとしたセグメンテーションを行い、2つの大きな課題を生んだ。
第一に、ビデオにおける推論の間、SAM2はオブジェクトの動き情報を考慮せずにメモリのみに依存しているため、オブジェクトは消滅する可能性がある。
第二に、メモリは固定された過去のフレームから構築され、メモリ内の潜在的に不正確なセグメンテーションの結果、オブジェクトの消失や隠蔽に関連する問題に影響を受ける。
これらの問題に対処するため、モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
まず,物体の動きを疎密かつ高密度に表現し,動き誘導プロンプトを用いてSAM2に注入する動き誘導プロンプト(MGP)を提案する。
MGPにより、モデルが動きの向きに焦点を合わせることができ、それによってオブジェクト追跡能力が向上する。
さらに,過去のセグメンテーション結果が不正確であることを認め,フレームの正確なセグメンテーションを画素レベルとフレームレベルで動的に識別する空間時間記憶選択(ST-MS)機構を考案した。
潜在的に不正確なマスク予測をメモリから排除することにより、より信頼性の高いメモリ機能を活用して、セグメンテーション結果を改善するために類似した領域を利用することができる。
ビデオオブジェクトのセグメンテーションとビデオインスタンスのセグメンテーションの様々なベンチマークに関する大規模な実験は、MoSAMが他の競合相手と比較して最先端の結果を達成することを示した。
関連論文リスト
- SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object
and Boundary Constraints [9.238103649037951]
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するフレームワークを提案する。
本稿では,SGOのコンテンツ特性を考慮し,セマンティックな情報を持たないセグメンテーション領域を活用するために,オブジェクト整合性の概念を導入する。
境界損失は、モデルが対象の境界情報に注意を向けることによって、SGBの特徴的な特徴に重きを置いている。
論文 参考訳(メタデータ) (2023-12-05T03:33:47Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation [93.22300146395536]
本研究では,映像中のキャモフラージュされた物体を検出する計算アーキテクチャを設計し,特に物体のセグメンテーションを行うために動作情報を活用する。
最初の大規模な移動カモフラージュ動物(MoCA)ビデオデータセットを収集した。
提案手法の有効性を実証し,動作のみに依存して,DAVIS2016上の教師なしセグメンテーションプロトコル上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。