論文の概要: MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2501.13667v1
- Date: Thu, 23 Jan 2025 13:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:05.937000
- Title: MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
- Title(参考訳): MPG-SAM 2: SAM 2 にマスク優先の適応とビデオオブジェクトセグメンテーションのグローバルコンテキスト
- Authors: Fu Rong, Meng Lan, Qian Zhang, Lefei Zhang,
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)の参照は、ビデオ内のオブジェクトをテキスト記述に従ってセグメントすることを目的としている。
Segment Anything Model 2 (SAM2)は、様々なビデオセグメンテーションタスクにおいて大きな効果を示している。
本稿では,これらの課題に対処する新しいRVOSフレームワークMPG-SAM 2を提案する。
- 参考スコア(独自算出の注目度): 21.43947114468122
- License:
- Abstract: Referring video object segmentation (RVOS) aims to segment objects in a video according to textual descriptions, which requires the integration of multimodal information and temporal dynamics perception. The Segment Anything Model 2 (SAM 2) has shown great effectiveness across various video segmentation tasks. However, its application to offline RVOS is challenged by the translation of the text into effective prompts and a lack of global context awareness. In this paper, we propose a novel RVOS framework, termed MPG-SAM 2, to address these challenges. Specifically, MPG-SAM 2 employs a unified multimodal encoder to jointly encode video and textual features, generating semantically aligned video and text embeddings, along with multimodal class tokens. A mask prior generator utilizes the video embeddings and class tokens to create pseudo masks of target objects and global context. These masks are fed into the prompt encoder as dense prompts along with multimodal class tokens as sparse prompts to generate accurate prompts for SAM 2. To provide the online SAM 2 with a global view, we introduce a hierarchical global-historical aggregator, which allows SAM 2 to aggregate global and historical information of target objects at both pixel and object levels, enhancing the target representation and temporal consistency. Extensive experiments on several RVOS benchmarks demonstrate the superiority of MPG-SAM 2 and the effectiveness of our proposed modules.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、マルチモーダル情報と時間動的知覚の統合を必要とするテキスト記述に従って、ビデオ内のオブジェクトをセグメンテーションすることを目的としている。
Segment Anything Model 2 (SAM2)は、様々なビデオセグメンテーションタスクにおいて大きな効果を示している。
しかし、オフラインのRVOSへの適用は、テキストを効果的なプロンプトに翻訳し、グローバルな文脈認識の欠如によって困難である。
本稿では,これらの課題に対処する新しいRVOSフレームワークMPG-SAM 2を提案する。
具体的には、MPG-SAM 2は統合されたマルチモーダルエンコーダを使用して、ビデオとテキストの機能を共同でエンコードし、セマンティックに整列したビデオとテキストの埋め込みと、マルチモーダルクラストークンを生成する。
マスク先行生成器は、ビデオ埋め込みとクラストークンを使用して、ターゲットオブジェクトとグローバルコンテキストの擬似マスクを生成する。
これらのマスクは、SAM 2の正確なプロンプトを生成するためのスパースプロンプトとしてマルチモーダルクラストークンとともに、密なプロンプトとしてプロンプトエンコーダに供給される。
オンラインSAM2をグローバルな視点で提供するために,SAM2は,対象対象のグローバルかつ歴史的情報を画素レベルとオブジェクトレベルで集約し,対象の表現と時間的一貫性を高める階層的グローバル・ヒストリカル・アグリゲータを導入する。
いくつかの RVOS ベンチマークにおいて,MPG-SAM 2 の優位性と提案モジュールの有効性が示された。
関連論文リスト
- Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。