論文の概要: MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2501.13667v2
- Date: Mon, 10 Mar 2025 11:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:06.073294
- Title: MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation
- Title(参考訳): MPG-SAM 2: SAM 2 にマスク優先の適応とビデオオブジェクトセグメンテーションのグローバルコンテキスト
- Authors: Fu Rong, Meng Lan, Qian Zhang, Lefei Zhang,
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)の参照は、ビデオ内のオブジェクトをテキスト記述に従ってセグメントすることを目的としている。
Segment Anything Model 2 (SAM2)は、様々なビデオセグメンテーションタスクにおいて大きな効果を示している。
本稿では,これらの課題に対処する新しいRVOSフレームワークMPG-SAM 2を提案する。
- 参考スコア(独自算出の注目度): 21.43947114468122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) aims to segment objects in a video according to textual descriptions, which requires the integration of multimodal information and temporal dynamics perception. The Segment Anything Model 2 (SAM 2) has shown great effectiveness across various video segmentation tasks. However, its application to offline RVOS is challenged by the translation of the text into effective prompts and a lack of global context awareness. In this paper, we propose a novel RVOS framework, termed MPG-SAM 2, to address these challenges. Specifically, MPG-SAM 2 employs a unified multimodal encoder to jointly encode video and textual features, generating semantically aligned video and text embeddings, along with multimodal class tokens. A mask prior generator utilizes the video embeddings and class tokens to create pseudo masks of target objects and global context. These masks are fed into the prompt encoder as dense prompts along with multimodal class tokens as sparse prompts to generate accurate prompts for SAM 2. To provide the online SAM 2 with a global view, we introduce a hierarchical global-historical aggregator, which allows SAM 2 to aggregate global and historical information of target objects at both pixel and object levels, enhancing the target representation and temporal consistency. Extensive experiments on several RVOS benchmarks demonstrate the superiority of MPG-SAM 2 and the effectiveness of our proposed modules.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、マルチモーダル情報と時間動的知覚の統合を必要とするテキスト記述に従って、ビデオ内のオブジェクトをセグメンテーションすることを目的としている。
Segment Anything Model 2 (SAM2)は、様々なビデオセグメンテーションタスクにおいて大きな効果を示している。
しかし、オフラインのRVOSへの適用は、テキストを効果的なプロンプトに翻訳し、グローバルな文脈認識の欠如によって困難である。
本稿では,これらの課題に対処する新しいRVOSフレームワークMPG-SAM 2を提案する。
具体的には、MPG-SAM 2は統合されたマルチモーダルエンコーダを使用して、ビデオとテキストの機能を共同でエンコードし、セマンティックに整列したビデオとテキストの埋め込みと、マルチモーダルクラストークンを生成する。
マスク先行生成器は、ビデオ埋め込みとクラストークンを使用して、ターゲットオブジェクトとグローバルコンテキストの擬似マスクを生成する。
これらのマスクは、SAM 2の正確なプロンプトを生成するためのスパースプロンプトとしてマルチモーダルクラストークンとともに、密なプロンプトとしてプロンプトエンコーダに供給される。
オンラインSAM2をグローバルな視点で提供するために,SAM2は,対象対象のグローバルかつ歴史的情報を画素レベルとオブジェクトレベルで集約し,対象の表現と時間的一貫性を高める階層的グローバル・ヒストリカル・アグリゲータを導入する。
いくつかの RVOS ベンチマークにおいて,MPG-SAM 2 の優位性と提案モジュールの有効性が示された。
関連論文リスト
- DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation [6.976534642198541]
MGD-SAM2は、SAM2とグローバルイメージとローカルパッチ間のマルチビュー特徴相互作用を統合し、正確なセグメンテーションを実現する。
HRCS画像の局所的詳細や大域的意味を抽出するために,まずMPAdapterを導入し,SAM2エンコーダを適応させる。
そこで, MCEM と HMIM は, 局所的なテクスチャとグローバルなコンテキストをさらに活用するために, マルチスケールにおける多視点特徴を集約することを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:02:32Z) - Customized SAM 2 for Referring Remote Sensing Image Segmentation [21.43947114468122]
本稿では SAM 2 を RRSIS に適応させる新しいフレームワーク RS2-SAM 2 を提案する。
また,テキスト重み付き勾配差の計算により分割境界を最適化するために,テキスト誘導境界損失を導入する。
いくつかのRRSISベンチマークの実験結果は、RS2-SAM 2が最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2025-03-10T12:48:29Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Referring Video Object Segmentation via Language-aligned Track Selection [30.226373787454833]
ビデオオブジェクトセグメンテーション(RVOS)は、所定の自然言語表現に従って、ビデオを通してオブジェクトを追跡し、セグメンテーションする必要がある。
我々はSAM2オブジェクトトークンをコンパクトなビデオレベルオブジェクト表現として活用する新しいフレームワークであるSOLAを紹介する。
実験によると、SOLAはMeViSデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-02T05:20:35Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。