論文の概要: DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
- arxiv url: http://arxiv.org/abs/2504.12080v2
- Date: Thu, 17 Apr 2025 15:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 10:52:30.745147
- Title: DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
- Title(参考訳): DC-SAM: デュアル一貫性による画像とビデオのインコンテキストセグメンテーション
- Authors: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang,
- Abstract要約: In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
- 参考スコア(独自算出の注目度): 91.30252180093333
- License:
- Abstract: Given a single labeled example, in-context segmentation aims to segment corresponding objects. This setting, known as one-shot segmentation in few-shot learning, explores the segmentation model's generalization ability and has been applied to various vision tasks, including scene understanding and image/video editing. While recent Segment Anything Models have achieved state-of-the-art results in interactive segmentation, these approaches are not directly applicable to in-context segmentation. In this work, we propose the Dual Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2 for in-context segmentation of both images and videos. Our key insights are to enhance the features of the SAM's prompt encoder in segmentation by providing high-quality visual prompts. When generating a mask prior, we fuse the SAM features to better align the prompt encoder. Then, we design a cycle-consistent cross-attention on fused features and initial visual prompts. Next, a dual-branch design is provided by using the discriminative positive and negative prompts in the prompt encoder. Furthermore, we design a simple mask-tube training strategy to adopt our proposed dual consistency method into the mask tube. Although the proposed DC-SAM is primarily designed for images, it can be seamlessly extended to the video domain with the support of SAM2. Given the absence of in-context segmentation in the video domain, we manually curate and construct the first benchmark from existing video segmentation datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess the in-context capability of the model. Extensive experiments demonstrate that our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our source code and benchmark are available at https://github.com/zaplm/DC-SAM.
- Abstract(参考訳): 単一のラベル付き例が与えられた場合、インコンテキストセグメンテーションは対応するオブジェクトをセグメンテーションすることを目的としている。
ワンショットセグメンテーション(One-shot segmentation in few-shot learning)として知られるこの設定は、セグメンテーションモデルの一般化能力を探求し、シーン理解や画像/ビデオ編集など、様々な視覚タスクに適用されてきた。
最近のSegment Anything Modelsはインタラクティブセグメンテーションにおいて最先端の結果を得たが、これらのアプローチはインコンテキストセグメンテーションには直接適用されない。
本研究では,画像とビデオのテキスト内セグメンテーションにSAMとSAM2を適応させるために,プロンプトチューニングに基づくDual Consistency SAM(DC-SAM)手法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
マスクを事前に生成する場合、SAM機能を融合してプロンプトエンコーダの整合性を改善する。
そして、融合した特徴と初期視覚的プロンプトに基づいて、サイクル一貫性のあるクロスアテンションを設計する。
次に、プロンプトエンコーダの識別正及び負のプロンプトを用いてデュアルブランチ設計を行う。
さらに,提案手法をマスク管に適用するための簡易なマスクチューブ訓練法を設計した。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
In-Context Video Object Segmentation (IC-VOS)と呼ばれる既存のビデオセグメンテーションデータセットから最初のベンチマークを手作業でキュレートして構築し、そのモデルのインコンテキスト能力を評価する。
実験の結果,COCO-20iでは55.5 mIoU,PASCAL-5iでは73.0 mIoU,IC-VOSベンチマークではJ&Fスコアが71.52であった。
ソースコードとベンチマークはhttps://github.com/zaplm/DC-SAMで公開されています。
関連論文リスト
- When SAM2 Meets Video Shadow and Mirror Detection [3.3993877661368757]
本研究では,3つのビデオセグメンテーションにおけるセグメンテーションモデル2(SAM2)の有効性を評価する。
具体的には、地上の真理点またはマスクプロンプトを用いて、最初のフレームを初期化し、その後のフレームに対応するマスクを予測する。
実験の結果,特にポイントプロンプトを用いた場合,SAM2の性能は最適以下であることが示唆された。
論文 参考訳(メタデータ) (2024-12-26T17:35:20Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - CycleSAM: One-Shot Surgical Scene Segmentation using Cycle-Consistent Feature Matching to Prompt SAM [2.9500242602590565]
CycleSAMは、テスト時にトレーニングイメージマスクペアを使用してワンショットの手術シーンセグメンテーションを行うアプローチである。
手術画像に事前訓練されたResNet50エンコーダを自己教師方式で採用し,高いラベル効率を維持する。
論文 参考訳(メタデータ) (2024-07-09T12:08:07Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。