論文の概要: MirrorSAM2: Segment Mirror in Videos with Depth Perception
- arxiv url: http://arxiv.org/abs/2509.17220v1
- Date: Sun, 21 Sep 2025 20:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.171993
- Title: MirrorSAM2: Segment Mirror in Videos with Depth Perception
- Title(参考訳): MirrorSAM2:深度認識ビデオのセグメンションミラー
- Authors: Mingchen Xu, Yukun Lai, Ze Ji, Jing Wu,
- Abstract要約: 本稿では,RGB-Dビデオミラーセグメンテーションにセグメンテーションモデル2(SAM2)を適用した最初のフレームワークであるMirrorSAM2を提案する。
MirrorSAM2は、曖昧さの反映やテクスチャの混乱など、ミラー検出における重要な課題に対処する。
VMDおよびDVMDベンチマークの実験では、ミラーSAM2は小さなミラー、弱い境界、強い反射のような困難な条件下であってもSOTA性能を達成することが示された。
- 参考スコア(独自算出の注目度): 48.40774412545921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MirrorSAM2, the first framework that adapts Segment Anything Model 2 (SAM2) to the task of RGB-D video mirror segmentation. MirrorSAM2 addresses key challenges in mirror detection, such as reflection ambiguity and texture confusion, by introducing four tailored modules: a Depth Warping Module for RGB and depth alignment, a Depth-guided Multi-Scale Point Prompt Generator for automatic prompt generation, a Frequency Detail Attention Fusion Module to enhance structural boundaries, and a Mirror Mask Decoder with a learnable mirror token for refined segmentation. By fully leveraging the complementarity between RGB and depth, MirrorSAM2 extends SAM2's capabilities to the prompt-free setting. To our knowledge, this is the first work to enable SAM2 for automatic video mirror segmentation. Experiments on the VMD and DVMD benchmark demonstrate that MirrorSAM2 achieves SOTA performance, even under challenging conditions such as small mirrors, weak boundaries, and strong reflections.
- Abstract(参考訳): 本稿では,RGB-Dビデオミラーセグメンテーションにセグメンテーションモデル2(SAM2)を適用した最初のフレームワークであるMirrorSAM2を提案する。
MirrorSAM2はリフレクションの曖昧さやテクスチャの混乱といったミラー検出における重要な課題に対処し、RGB用の深度ウォーピングモジュールと、自動的なプロンプト生成のための深度誘導型マルチスケールポイントプロンプトジェネレータ、構造境界を強化するための周波数詳細注意融合モジュール、洗練されたセグメンテーションのための学習可能なミラートークンを備えたミラーマスクデコーダの4つのモジュールを導入している。
RGBと深さの相補性を完全に活用することで、MirrorSAM2はSAM2の能力をプロンプトフリーな設定にまで拡張する。
我々の知る限り、SAM2が自動ビデオミラーセグメンテーションを実現するための最初の試みである。
VMDおよびDVMDベンチマークの実験では、ミラーSAM2は小さなミラー、弱い境界、強い反射のような困難な条件下であってもSOTA性能を達成することが示された。
関連論文リスト
- SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation [6.976534642198541]
MGD-SAM2は、SAM2とグローバルイメージとローカルパッチ間のマルチビュー特徴相互作用を統合し、正確なセグメンテーションを実現する。
HRCS画像の局所的詳細や大域的意味を抽出するために,まずMPAdapterを導入し,SAM2エンコーダを適応させる。
そこで, MCEM と HMIM は, 局所的なテクスチャとグローバルなコンテキストをさらに活用するために, マルチスケールにおける多視点特徴を集約することを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:02:32Z) - CamSAM2: Segment Anything Accurately in Camouflaged Videos [37.0152845263844]
本研究では,Camouflaged SAM2 (CamSAM2) を提案する。
現在のフレームと以前のフレームの細粒度と高解像度機能をフル活用するために,暗黙的オブジェクト認識融合 (IOF) と明示的オブジェクト認識融合 (EOF) モジュールを提案する。
CamSAM2はSAM2に無視可能な学習可能なパラメータのみを追加するが、3つのVCOSデータセットでSAM2を大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-25T14:58:52Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - Symmetry-Aware Transformer-based Mirror Detection [85.47570468668955]
デュアルパス・シンメトリ・アウェア・トランスフォーマーを用いたミラー検出ネットワーク(SATNet)を提案する。
SATNetにはSymmetry-Aware Attention Module (SAAM)とContrastとFusion Decoder Module (CFDM)の2つの新しいモジュールが含まれている。
実験の結果,SATNet は RGB と RGB-D の両方のミラー検出法に優れることがわかった。
論文 参考訳(メタデータ) (2022-07-13T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。